빅데이터 분석기사_필기/3과목_빅데이터 모델링
1장 / 분석 모형 설계
느리지만 꾸준하게
2021. 3. 16. 23:52
1. 분석 모형 선정
(1) 통계 기반 분석
- 기술통계분석 개요
- 가장 기초적인 분석 방법으로, 주어진 데이터의 특성을 요약하고 집계하는 것을 의미
- 데이터를 분석하기에 앞서 데이터에 대한 통계적 수치를 탐색
- 기본적으로 사분위값, 평균, 최솟값, 최댓값 등의 통계 결과를 반환
- 자료의 형태에 따라 반환되는 통계 결과가 달라짐
- 자료의 형태는 질적 척도와 양적 척도로 구분
- 질적 척도에는 명목 & 서열 척도
- 양적 척도에는 등간 & 비율 척도
EDA(탐색적 자료 분석)
- 시각화와 기술동계를 통해서 데이터를 이해하는 단계
독립변수와 종속변수
- 독립변수는 입력값이나 원인이 되는 변수로써
- 설명변수, 실험변수, 예측변수, 통제변수, 조작변수 등으로 불림
- 종속변수는 결과물이나 효과를 나타내는 것
- 종속변수 = 결과변수, 반응변수, 목표변수, 출력변수, 의존변수
T-test
- T-test는 두 집단 간의 평균을 비교하는 모수적 통계 방법으로, 집단이 두 개이며, 표본이 독립성, 정규성, 등분산성을 만족할 때 사용할 수 있다. 단일표본 t-test, 대응표본 t-test, 독립표본 t-test가 있다.
카이제곱 검정(x^2검정)
- 변수가 범주형일 때 사용 가능한 통계 방법
- 독립성 검정과 동질성 검정으로 구분
- 독립성 검정은 변수가 두 개일 때 이 두 변수 사이에 연관성이 있는지 없는지를 검정
- 동질성 검정은 변수가 하나이고 이 변수가 2개 이상의 범주로 구분될 때 그룹 간의 차이가 있는지 검정
분산분석(ANOVA)
- 분산분석은 세 개 이상의 집단 간 평균을 비교할 때 사용하는 통계 방법
- 분산분석의 독립변수는 범주형 데이터여야 하고, 종속변수는 연속형
- 집단이 세 개 이상일 때 T-test를 여러 번 사용하면 1종 오류를 범할 확률이 높아지므로 분산분석 사용
- 집단 간 분산 / 집단 내 분산으로 계산되는 F-value가 사용된다.
- 평균을 비교하는 데 분산을 사용하는 이유는 집단 간 평균의 분산이 클수록 각 집단의 평균은 멀리 떨어져 있기 때문
- 일원분산분석 vs 이원분산분석 vs 다원변량분산분석
(2) 데이터 마이닝
- 핵심은 이거다. 통계분석처럼 가설이나 가정에 따른 검증이 주목적이 아니라, 다양한 수학적 알고리즘을 이용해 데이터로부터 유의미한 정보를 찾아내는 것이 주목적
1. 기술
2. 분류
3. 추정
4. 예측
5. 연관분석
6. 군집
(3) 비정형 데이터 마이닝
- 문서, 영상처럼 형태와 구조가 정형화되지 않은 데이터를 의미한다. 최근 들어 문서, 영상, 음성 이외에도 이메일, SNS 등 온라인을 통해 비정형 데이터가 대량으로 생성되고 있어 비정형 데이터 마이닝의 중요성이 강조
- 기존 정형 데이터 마이닝은 연속형 데이터를 기준으로 설계
- 비정형 데이터는 텍스트와 더불어 그림, 도표 등이 포함되어 있어 이를 숫자로 변환해 정형 데이터 마이닝을 적용하기 어렵다.
- 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석 등의 비정형 데이터 마이닝 기법을 사용
(4) 모형 선정 프로세스
- 분석하고자 하는 문제에 대한 정의가 끝났으면 어떤 모형을 쓸지 고려
- 분류를 한다면 knn, 로지스틱 회귀분석 등을 사용
- 항상 월등한 성능을 보여주는 모델은 존재 x
- 각 모형의 성능을 비교해 최적의 성능을 보여주는 모델 선택
=>
1. 그리드 서치를 이용한 모델 선택
2. 랜덤 서치를 이용한 모델 선택
2. 분석 모형 정의
(1) 지도학습과 비지도학습
- 지도학습 = 머신러닝(기계학습)은 확률과 통계를 바탕으로 데이터를 분류하거나 값을 예측하는 것을 의미
- 피처, 즉 객체의 특성을 머신러닝 분석 모델에 학습시키는 과정 필요
- 지도학습과 비지도학습이 존재지도학습이란 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것. 입력값이 주어졌을 때 각 레코드에는 레이블이라 불리는 정답값이 반드시 존재
- 지도학습의 유형
- 분류에 사용되는 모형 = 레이블이 범주형(로지스틱 회귀분석, 신경망 모형, 의사결정 트리, KNN, 앙상블모형, SVM, 나이브 베이즈 분류)
- 회귀에 사용되는 모형 = 레이블이 연속형(선형회귀분석, 의사결정 트리(회귀트리모형), SVR, 신경망 모형, 릿지, 라쏘)
- 비지도학습 = 정답을 알려주지 않고 학습
- 정답값(Y)가 필요X. 정답 레이블이 없는 데이터를 비슷한 특징을 가진 데이터끼리 군집화해 새로운 데이터에 대한 결과를 예측
- 군집에 사용되는 모형(K-means, SOM, DBSCAN(밀도 기반 군집), 병합 군집, 계층 군집
- 차원축소에 사용되는 모형(PCA(주성분 분석), LDA(선형판별분석), SVD(특이값 분해), MDS(다차원 척도법))
- 연관분석에 사용되는 모형 Apriori
3. 분석 모형 구축 절차
분석 모형을 구축하는 절차는 적용하는 업무와 조직의 특성에 따라 다양한 모델을 통해 진행
- 폭포수 모델 = 요구사항 분석 부터 설계 구현 테스트 유지보수의 과정을 순차적으로 진행
- 고전적인 하향식 방법론
- 이름처럼 프로세스가 단방향으로 진행
- 이전단계가 완료돼야 다음 단계 진행
- 다른 단계와 병행하거나 이전 단계로 돌아가서 진행할 수 없다
- 한 단계가 완료돼야 다음 단계로 넘어갈 수 있기 때문에
- 하나의 단계가 끝나면 해당 단계에 대한 점검을 하고 점검결과
- 결함이 발견되면 결함이 발견된 부분으로 돌아가는 피드백을 통해 수정한 후 다음 단계 수행
- 요구사항 분석
- 설계
- 구현
- 테스트
- 유지보수의 단계를 거침
- 장점 : 프로젝트가 체계적, 관리하기 용이, 전체 과정을 이해하기 수월, 적용사례가 많음, 문서관리가 용이
- 단점 : 고객의 요구사항을 상세 반영하기 힘듦, 문제 해결 및 수정 비용이 크다, 피드백에 의한 반복이 어렵다
- 프로토타이핑 모델
- 폭포수 모델의 단점인 피드백에 의한 반복이 어렵다는 점을 극복하기 위해 만든 점진적 프로세스 모델
- 고객이 요구한 시스템의 주요 기능 일부분을 우선적으로 구현한 초기모델을 개발한 후
- 사용자의 피드백을 통해 모든 요구사항이 반영될 때까지 시스템을 개선, 보완하며 시스템을 완성
- 프로토타이핑 모델 플로차트 암기
- 계획 수립
- 요구분석
- 프로토타입 개발/개선
- 프로토타입 평가
- 시스템 구현
- 테스트
- 장점 : 요구사항이 모호한 경우에 유용, 변경이 용이, 요구사항의 극대화가 가능, 빠른 오류 발견이 가능
- 단점 : 프로토타입을 만든 후 프로젝트를 포기할 경우 비경제적, 각 단계를 문서화하기가 어렵다, 계속된 변경으로 개발 시간 및 비용이 증가
- 나선형 모델
- 시스템을 개발하면서 발생하는 위험을 최소화
- 개발 단계를 반복적으로 수행하며 점진적으로 완벽한 시스템을 개발하는 모델
- 폭포수 모델의 장점과 프로토타입 모델의 장점을 합치고 이에 위험 분석이라는 새로운 요소 추가한 모델
- 나선형 모델의 개발 단계 암기
- 목표설정
- 위험분석
- 개발/검증
- 고객평가/계획
- 장점 : 정확한 사용자 요구사항 파악이 가능, 요구사항 변동에 대처 가능, 위험을 최소화, 대규모 프로젝트에 적합
- 단점 : 프로젝트 수행에 많은 시간이 소요, 반복 수행으로 인해 프로젝트 관리가 어렵다, 위험관리 능력이 프로젝트의 성패에 많은 영향을 끼침
그럼 이만.
총총.