Sequence Motif 등장 확률

(블로그를 이전했습니다.
이 글을 포함해 더 많은 컨텐츠에 관심이 있으시다면 링크를 따라가주세요.

This blog has been moved. Please follow this link if you are interested in more contents including the one you are about to read now.)




옮긴 블로그에서 읽고있는 글의 나머지 내용을 확인하세요.

4 comments

  1. 유익한 글 감사합니다. combinatorics에서 유명한 derangement[1]의 개수 세는 문제와 똑같군요. :) 저도 maple[2]로 그래프를 한 번 그러볼까 싶었는데, 엄청나게 오래 걸려서 포기했습니다. ㅎㅎㅎ 그런데 제가 문외한이라서 그런데, 이 계산이 실제로 활용되는 경우가 있나요? 아니면 순수하게 수학적인 의문으로 푸신 건가요?

    [1] https://en.wikipedia.org/wiki/Derangement
    [2] https://en.wikipedia.org/wiki/Maple_(software)

    좋아요

    1. 전산생물학 실험실에서 종종 짧은 길이 시퀀스의 등장 가능성을 계산하고 싶을 때가 있습니다. 예를 들어, DNA/RNA를 가지고 하는 몇몇 실험에서 전 과정이 계획대로 진행되었는지 확인할 때, 특정 시퀀스 쿼리가 기대만큼 빈번히 등장하는지 계산해보면 (아주)대강 감을 잡을 수 있습니다. (50nt마다 한 번 꼴로 빈번히 등장해야 할 쿼리가 1000nt를 살펴봐도 나타나지 않는다면 실험 어딘가에 문제가 있었던 것이겠죠)

      그때마다 간단히 k/4^n으로 근사(?)하곤 했는데, 어느날 친구가 “52nt 타겟에서 7nt 쿼리가 한 차례 이상 등장할 정확한 확률”이 궁금하다고 물어왔습니다.

      막상 계산을 해보려니 생각보다는 복잡한 문제였습니다. 정확한 값은 지금껏 써왔던 방법과 얼마나 차이가 나는지 (상당히 과대추정하고 있었더군요), 또 52, 7이 아닌 일반적인 경우에도 적용할 수 있을지 궁금해서 문제를 풀기 시작했습니다.

      그리 유용한 활용사례는 아닌 듯 싶습니다만ㅎㅎ 정확한 값이 필요하지는 않더라도, 이처럼 가끔가다 쿼리 등장 확률을 계산하면 실험 과정을 트러블슈팅할 때 도움될 때가 있습니다. 이렇게까지 정확하게 계산하고 싶었던건 그저 학문적인 오기 때문이었습니다 :)

      좋아요

댓글 남기기

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.