ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Chapter 1. Practical Time Series Analysis (실전 시계열 분석)
    Extra study/Time series Analysis 2022. 10. 23. 17:38
    728x90

     

    안녕하세요, 빼리냐옹이🐈 입니다 :)

    AI를 공부하면서 예측 (Prediction)과 분류 (Classification) 문제를 다루고 이해하기 위해서는 '시계열 분석'을 추가로 공부할 필요가 있다고 생각했습니다. 저는 시계열 분석 서적에서 가장 유명하기도 하고 많은 사람들이 공부했기에 참고할 자료가 많은
    'Practical Time Series Analysis'을 스터디 도서로 선정하였고, 해당 서적을 바탕으로 스터디한 내용을 작성해보고자 합니다.

     

    Practical Time Series Analysis

     


     

    Chapter 1. 시계열의 개요와 역사

     

    시계열 분석

    1. 시간 순서대로 정렬된 데이터에서 의미있는 요약통계 정보추출하기 위한 노력으로,
      과거 행동을 진단할 뿐만 아니라 미래 행동을 예측하기 위해 시계열 분석을 수행
    2. 시계열 분석의 혁신은 새로운 형태의 데이터를 수집, 기록, 시각화하는 방법에서 비롯된 결과물
    3. 과거가 미래에 어떤 영향을 주는가와 같은 인과관계를 다루는 질문으로 요약할 수 있음

     


     

    1-1. 다양한 응용 분야의 시계열 역사

    1-1-1. 시계열 문제로서의 의학

    Intro. 의학의 미래를 예측하는 수학적 사고는 늦게 사용 됐으며, 통계 및 확률로 세상을 바라보는 것은 최근 현상

    • John Graunt 인구통계학 (의학 질문에 시계열식 사고를 적용한 첫 번째 결과물)
      • 생명표 (life table) : 이 책의 생명표는 특정 연령대에 있는 사람이 다음 생일 전에 사망할 확률을 의미
      • 반면, 의학은 통계학보다 생리학에 집중 했으며 그 이유는 아래와 같이 2가지 같음
        → 첫째, 수 세기 간 생리학/해부학 연구가 의학의 주된 진보였으며, 대부분의 사람들은 해당 연구를 신봉
        → 둘째, 의사를 위한 보고 기반 체계가 미비해 많은 정보를 보고하고 표로 만드는 것이 어려움
           (통계적 방법이 임상적 관찰보다 우월하다는 정보량 부족하였음)


    → 시계열분석은
    복잡한 기록관리 시스템을 요구하며 기록은 시간의 흐름에 따라 서로 연결 돼야 하고,   
       규칙적 간격으로 수집되어야 함, 최근 역학 시계열을 적용하는 움직임 활발

    • 의료기구
      • 심전도 (electrocardiogram, ECG), 뇌전도 (electroencephalography, EEG) 의료기기 발명
        → 시계열 분석을 의료 진단에 적용할 기회를 제공함
        → EGC와 EEG라는 시계열을 분류하는 기법은 갑작스러운 심장 문제나 발작을 측정하는 실용적 목적을
           위해 활발히 연구 되고 있으나, 특정 질병을 가진 환자에게만 적용할 수 있는 문제가 있음
        → 해당 기기로 사람의 건강과 행동을 넓은 시각으로 이해하는 것이 어려움

      • 웨어러블 센서 (wearable sensor), 스마트한 전자 의학 기기의 출현
        → 일상생활에서 자신의 건강 상태를 측정 가능
        → 환자뿐 아니라 건강한 사람의 장기적 변화가 담긴 고품질 데이터를 계속 수집 가능
        → 개인 DNA에 맞춰진 의약품의 등장으로 점점 더 많은 시계열 데이터 측정과 가치가 상승하고 있음

     

     


     

    1-1-2. 일기예보

    Intro. 아리스토텔레스 논문 『Meteorology』 는 대부분 기상에 대한 탐구이며, 이는 르네상스 시대까지 이어짐

    • Robert FitzRoy 일기예보 (weather forecast)
      → 구축된 데이터셋의 도움으로 일기예보를 위한 컴퓨터 시스템이 활발히 구축됨

      → 반면, 세계온도에 대한 논쟁, 허리케인 이동경로 예측 등을 정치적으로 악용하는 사례가 발생

    • 현지 날씨를 예측하는데 처음으로 의미있는 데이터셋을 생성
      → 이를 시초로 전 세계 여러 국가의 표준으로 자리 잡고, 지리적으로 다른 위치의 날씨를 기반으로
         현지 날씨를 예측하는데 처음으로 의미있는 데이터셋을 생성

      → 구축된 데이터셋의 도움으로 일기예보를 위한 컴퓨터 시스템이 활발히 구축됨
      → 반면, 세계온도에 대한 논쟁, 허리케인 이동경로 예측 등을 정치적으로 악용하는 사례가 발생

     

     


     

    1-1-3. 경제성장 예측

    Intro. 19세기 말 ~ 20세기 초 발생한 일시적 금융위기로 인한 불안감은 경제 예측을 야기
               → 당시 기업가와 연구자는 경제를 기상변화와 같은 순환 시스템에 비유할 수 있다는 생각에서 영감을 얻음

    • 초기 경기예측
      → 초기 경기예측은 일기예보와 사용하는 용어가 유사하였음
      → 경제 예측에 대한 초기 노력은 오늘날의 경제지표의 기반이 됨

    • 현대 경기예측
      → 국가의 역할은 데이터를 가능한 정확히 기록하고 대중에게 공개하는 것으로, 경제성장, 경제재앙,
         호황과 불황 주기 등을 방지하고, 운송업체, 제조업체, 사업자, 농부들에게 미래의 시장 상황을
         예측할 수 있는 기회를 제공해 비즈니스가 풍부한 데이터로부터 이점을 누리도록 함

      → 이 모든 것은 초기의 순환 금융 실패 원인으로 여겨지는 경기순환을 식별하는데 비롯
      → 몇 가지 예로 국내총생산(GDP)와 소득신고에 대한 추산 등

    • 주식시장
      → 데이터 수집에 대한 정부의 성공 → 상품과 증권 거래소 전문화, 금융 연감 (financial yearbook) 대중화
      기록관리는 직관보다 수학을 통해 시장에서 이윤 창출을 추구하는 방식을 일으킴
      • Richard Dennis 기계적 트레이닝 (mechanical trading)
        → 평범한 사람들에게 거래 시기와 방법 등 자신의 경험을 통해 얻은 정보를 가르쳐줌
        → 1980년도 인공지능에 대한 생각에도 영향을 줌 (경험적 방법을 사용하는 패러다임이 지배적이었음)

     

     


     

    1-1-4. 천문학

    Intro. 천문학은 항상 물체, 궤도, 측량 그래프를 그리는 데 크게 의존 했으며,
              천문학자들은 관심 대상을 연구하고 측정기구를 보정하는 시계열의 달인으로 볼 수 있음

    • 시계열과 관련된 흥미로운 천문학 주제들
      • 은하거리 추정 → 다양한 별의 발견, 초신성과 같은 일시적 사건의 관측
      • 파장과 강도로 구성된 시계열 데이터를 실시간으로 스트리밍 형태로 관찰한 결과
      • 시계열은 우주에 대해 무엇을 측정하고 알 수 있는지에 대해 근본적 영향을 줌
      • 천문학적인 이미지에 대한 관찰 → 천문학자가 특정사건이 발생하는 순간을 포착
      • 타임스탬프가 기록된 데이터에 대한 가용성은 천문학에서 폭발적으로 증가
        → 가용성에 대한 증가는 다양한 망원경이 있어 가능하였음

     

     


     

    1-2. 시계열 분석의 도약

    • 조지 박스 (George Edward Pelham Box)
      → 시계열의 모델을 만드는 것이 데이터에 적합한 모델을 찾는 일반적 사고방식
      → “현실을 정확히 반영하는 모델은 존재하지 않지만, 일부 모델은 유용하다”
      • 박스-젠킨스 방법 (Box-Jenkins method)
        → ARMA 또는 ARIMA 모델 및 시계열을 모델링하는 데 최적 파라미터를 고르기 위한 고전적 방법

    • 롭 하인드먼 (Rob Hyndman) 교수의 『A brief history of forecasting competitions』
      → 시계열을 사용한 예측 대회가 어떻게 컴퓨터와 비슷한 속도로 발전했는지에 대한 적절한 예
      → 1970년대 초기 : 데이터 100개 → 1970년대 말 : 데이터 1,000개 → 1990년대 말 : 데이터 3,000개
      → 현대에는 머신러닝, GPU의 발전으로 연구 데이터의 양과 품질을 혁신하였음

     

     


     

    1-3. 통계적 시계열 분석의 기원

    Intro. 통계학은 미성숙한 과학으로 데이터를 언제, 어디서, 어떻게 사용하는지와 데이터의 질적인 측면에 의존적
               → 시계열 분석은 확률 이론 진전, 국가 차원에서 기록을 실현하게끔 해준 국가의 안정적 상태와 관련

    • 시계열 분석이 학문으로 시작할 수 있었던 기준
      • 자기 회귀 모델을 실제 데이터에 적용
        → 실험물리학자 우드니 율은 흑점 데이터에 자기회귀 모델을 적용했고, 진동 주파수에 맞게 설계된 방법과
           대조적으로 데이터를 보는 참신한 방법을 제시

        → 자기회귀 모델이 주기성을 가정하지 않는 모델 강조
        → 율은 독일에서 근무를 한 경험이 있으며, 양자역학의 급성장 이론의 진원지였던 독일의 환경을 영향으로
           양자역학이 확률적 본질을 강조한다는 사실을 알고 있었을 것

        → 양자역학이 발전되기 전 고전 물리학자들은 많은 것을 가정한 상태에서 누군가의 생각을 모델로
            압축했는데, 율은 이러한 방식의 위험성을 인지하고 있었을 것

      • 2차 세계대전 이후, 체계를 갖추고 기록하고 예측
        → 특히, 비즈니스 분야에서 실전 시계열 분석의 초기 문제들을 제기 했으며, 이는 수요예측,
            원자재의 미래 가격 추정, 제조 비용 손실에 대한 대비책과 같은 것이었음

        → 산업계에서 시계열 발전에 이바지하였음

     

     


     

    1-4. 머신러닝 시계열 분석의 기원

    Intro. 『The Combination of Forecasts』는 예측 성능을 향상하기 위한 방법으로, 최고의 하나를 고르는 것보다
              여러 예측의 결합에 대한 생각을 분석

    • 앙상블 방법
      여러 예측 문제에서 사실 상 기준점이 되었으며, 가능한 모든 모델보다 월등히 뛰어난 모델이나
      완벽한 방안을 거부한다는 특징

    • 1980년대 초 시계열 분석 및 머신러닝 활용방안
      • 해커 및 침입을 식별하기 위한 이상탐지 (anomaly detection) 방법
      • 동적시간왜곡 (dynamic time warping) : 시계열의 유사성 측정에 사용되는 지배적 방식 중 하나로,
        서로 다른 소리 간의 거리를 합리적으로 빨리 계산할 수 있는 연산력 덕분에 사용 가능해짐
      • 재귀적 신경망 발명으로 손상된 데이터로부터 패턴 추출 유용

     


     

    공감은 제가 공부하고 공유하며 소통하는 원동력이 됩니다.
    해당 글이 도움이 되셨다면 공감 부탁드립니다 ☺️

     

     

    728x90
뻬리냐옹이