□ 연구개발 목표 및 내용 ■ 최종 목표 바이오 자료의 경우 실험에 큰 비용이 들고 생물학적 표본의 공급 한계로 실험을 많이 반복하기 힘들기 때문에 각 실험에서 얻은 결과에 대한 신뢰도가 중요하다. 하지만 실험자나 실험 환경에 따라 실험을 반복해서 얻은 자료의 결과들이 다른 경우가 존재한다. 바이오 자료들에 국한되지 않고, 자료의 분석결과들을 이용한 많은 수의 연구들이 재현되지 않는 재현성 위기(reproducibility crisis) 현상이 현대 과학에서 일어나고 있다. 일관적이지 않은 실험의 결과는 연구의 신뢰도를 낮추고, 기존의 연구 결과를 기반으로 다음 연구로 나아가는 과학에서 이와 같은 연구의 신뢰성 문제는 큰 문제가 된다. 이에 반복 실험을 통해 얻어진 자료의 재현성(reproducibility)을 먼저 측정하고 평가하는 방법이 필요하다. 유전체 단백질체나 대사체와 같은 오믹스 자료들에 대한 마이크로 어레이(Microarray) 분석, 핵자기공명(Nuclear magnetic resonance; NMR) 스펙트럼 분석, 적외선(Infrared; IR) 분광 분석, 질량(Mass) 분석 등을 통하여 얻어진 자료는 표본의 크기 –샘플의 개수- 가 크지 않은 반면, 각 샘플의 차원은 매우 큰 자료 형태인 (즉, ) 고차원-저표본(high dimensional low sample size; HDLSS) 자료의 형태를 가진다. 이러한 특별한 자료 형태 때문에, 기존의 재현성 측도들이 작동하지 않는 문제가 있다. 본 연구과제에서는 고차원-저표본 자료 형태에 맞는 새로운 재현성 측도를 제안하고, 이에 대한 이론적인 결과를 제공하는 것을 목표로 한다. ■ 전체 내용 본 연구에서는 여러 가지 체학(multi-omics) 자료들이나 바이오 빅 데이터 자료를 다루기 위해, 자료에 맞는 HDLSS 구조에 대한 위의 연구들을 발전, 적용하여 자료들의 재현성을 측정할 수 있는 고차원-급내 상관계수 (high dimensional intraclass correlation coefficient; HICC)를 제안하고, 이론적 성질에 관한 연구를 진행하려고 한다. 본 연구에서는 다음과 같은 상황에서의 자료의 재현성을 평가할 수 있는 측도를 제안하려고 한다. 먼저 각 시료에 대해 두 번의 바이오 빅 데이터 자료를 얻는다고 생각하자. i번째 시료에 대한 j번째 실험에서 얻어진 자료를 W_ij라고 하면, 다음과 같은 측정 오차 모형을 생각할 수 있다. W_ij = X_i + U_ij 여기서 X_i는 i번째 시료의 실제 값으로, U_ij는 i번째 시료의 j번째 실험에서의 오차로 생각할 수 있다. 실제 값들과 실험 오차들은 서로 독립임을 가정한다. X_i와 U_ij의 공분산 행렬 K_X와 K_U는 각각 m_X, m_U개의 spike가 있는 spiked 공분산 행렬로 가정한다. 관측된 자료 W_ij의 공분산 행렬 K_W은 고유치 분해를 하여 표현할 수 있으며 다음과 같이 두 공분산 행렬의 합과 같다. K_W = K_X + K_U 각 공분산 행렬의 spike 형태에 의해, 관측된 자료의 공분산 행렬 K_W 역시 최대 m_X+m_U개의 spike를 갖는 spiked 공분산 행렬이 되는 것을 알 수 있다. spike 고유치를 이용한 고차원-급내상관계수(HICC)와 그의 추정 본 연구에서는 공분산 행렬의 spiked 가정을 이용해, spike 부분의 고유치만을 이용한 고차원 급내상관계 수를 제안한다. 즉, 고차원-급내상관계수를 spike 고유치들의 합의 비율로 정의한다. spike 부분의 고유치는 Yata and Aoshima (2012)에서 제안한 방법인 noise reduction method를 이용해 추정한다. [3] 표본 공분산 행렬은 그램 행렬과 0이 아닌 고유치를 공유하기 때문에, 그램 행렬의 고유치를 계산하는 방법으로 고차원 공분산 행렬의 고유치를 쉽게 구할 수 있다. 앞서 제안한 고차원-급내상관계수를 계산하기 위해서는 세 공분산 행렬 K_W, K_X, K_U의 고유치 추정량이 필요하다. 첫째로 K_W의 고유치들의 추정량은 관측값들의 표본 공분산 행렬 의 고유치를 추정하는 문제가 되며 위에서 소개된 noise reduction 방법으로 쉽게 계산할 수 있다. 공분산 행렬 K_U의 고유치와 고유벡터는 i번째 시료에서의 관측값의 평균을 알고있는 경우의 공분산 행렬의 고유치와 고유벡터와 가까움을 보일 수 있다. (Weyl's inequality, Davis Kahan theorem) 관측값의 평균을 알고있는 경우의 공분산 행렬은 서로 독립인 들을 이용해 만들어낸 표본 공분산 행렬처럼 생각할 수 있고, 역시 위의 Noise reduction 절차를 이용해 고유치들을 추정할 수 있게 된다. 공분산 행렬 K_X은 표본 공분산 행렬의 형태로 나타내기 어렵고, 본 연구에서는 K_W와 K_U의 고유치를 추정하였기 때문에, 추정된 고유치를 이용해서 K_X의 고유치와 고유벡터를 찾는다. K_X의 spike 고유벡터가 K_W와 K_U의 spike 고유벡터들의 선형결합으로 표현됨을 이용하면 찾을수 있다. 이와 같은 방법으로 두 번째, 세 번째 이후의 고유벡터를 모두 추정할 수 있으며, 위의 식을 최대화하는를 찾는 문제는 와 의 고유벡터와 고유치로 이용해서 만드는 특별한 행렬에 대한 주성분 분해를 하는 것으로 바꿔서 풀 수 있다. 위에서 제안한 고차원-급내상관계수 (HICC) 는 급내상관계수(ICC)의 가장 간단한 방법의 다차원 자료로의 일반화이고, 더 다양한 방법으로 재현성 측도를 개발할 수 있다. 그 중 하나로 측정오차 부분의 가 아니라, 자료의 정보를 담고있는 의 고유공간에 사영한 결과를 이용할 수도 있다. 위 측도의 경우, 자료의 정보를 담고있는 의 고유공간이 측정오차 부분인 의 공간과 수직한 경우 1을 가지게 되며, 이는 자료의 정보와 측정오차가 서로 잘 분리되고 있음을 의미하고, 재현성이 높음을 의미한다. □ 연구개발성과 1. 고차원-저표본 형태의 자료들에 대한 software로, 현재 연구중인 HP-ACCORD algorithm을 여러개의 실제 omics 자료에 적용하며 생기는 문제점을 보고하여 개선하는데 기여하였다. 2. 현재 연수기관에서 중요하게 다루고 있는 single cell 데이터에 대해서, Zero value들이 많은 특성을 반영하여 hurdle model을 기반으로 상호 의존성을 추정하는 새로운 목적함수의 개발하고 있으며, 이론적 성과에 대해 검증하고 있다. □ 연구개발성과 활용계획 및 기대 효과 기존의 연구계획과는 조금 다르지만, 재현성의 측도를 얻기 이전에 고차원-저표본 자료에 대한 실제 계산을 위한 High-performance computing에 대한 이해가 이후 연구에서 값을 계산하는 데 큰 도움이 될 것으로 예상하며, 특히 본 박사후연구기간동안 다루게 될 자료인 Single cell 자료의 bimodality 관련 특성에 대한 모형화는 이후 재현성 측도를 구함에 있어서 중요한 초석이 될 것으로 예상한다. (출처 : 요약문 2p)
- 연구책임자 : 김영래
- 주관연구기관 : 서울대학교
- 발행년도 : 20230900
- Keyword : 1. 고차원 계산;허들 모형;결측 자료; 2. High-performance computing;Hurdle model;Missing data;