디지털 포렌식의 기술적 측면에서 삭제된 파일의 복구는 수사의 실마리 혹은 알리바이의 증명이 될 수 있어 그 중요성은 학자, 전문가, 수사관. 업계 등 관련 분야의 많은 이들을 통해 강조된다.
반면 '특정 파일의 내용이 저장매체에 완전하게 삭제된 것이 확실한가?(완전삭제검증)'에 대해서는 그 중요성에도 불구하고 상대적으로 많은 고민을 하고 있지 않다. 기술 이전, 저작권 등 사람이 관련 문서, 파일, 프로그램 등을 넘길 때, 완전하게 넘겼는가 (예로 들면 집을 전세로 넘겨줄 때, 전 주인이 열쇠를 복사하고 갖고 있지는 않은가) 에 대한 검증이다. 은닉과 같은 의도적으로 파일을 숨기든 관리의 소홀함으로 비할당영역에 파일이 남아있든, 계약상·규정상 지워져야할 내용이 남아있다면 조직에 치명적인 타격을 줄 수 있다.
완전삭제검증에 대해 쉽게 생각하면 "복구 기술이 완벽해질수록, 완전 삭제 검증 문제는 자연스럽게 해결되는 것이 아닌가?" 라는 생각을 할 수 있다. 데이터 복구의 성능은 다음 표로 판단할 수 있다.
데이터 복구 | 실제(정답) | ||
삭제된 파일 | trash(쓰레기) | ||
복구 결과 | 복구 성공 | True Positive | False Positive |
미 복구 | False Negative | True Negative |
두가지 척도인
Precision = TP / (TP + FP)
Recall = TP / (TP + FN)
으로 성능을 평가하곤 하는데 어떤 척도를 기준으로 삼을 것인가는 목적이나 대상에 따라 다르다. 디지털 포렌식 관점에서 데이터 복구의 경우 쓰레기 파일을 삭제된 파일로 인식하여 복구하는 것보다, 실제로는 삭제된 파일을 복구하지 못하는 경우가 치명적이므로 Recall을 최대한 높여야한다. 그러나 데이터 복구의 뛰어남이 곧 완전 삭제 검증이 잘 됐음을 의미하지 않는다. 이유는 그 대상에 차이가 있기 때문이다.
우선, 특정 저장매체에 찾고자하는 특정 파일이 있는지를 확인하는 가장 보편적인 방법을 알아보자. 일반적으로 저장매체 내의 모든 파일에 대한 hash를 구한 후, 찾고자하는 파일의 hash를 비교하는 것이다.
그러나 완전 삭제 검증의 경우에는, 내용이 바뀐 경우도 생각해야한다. 파일의 한 비트만 바뀌더라도 파일의 hash는 바뀌기 때문에 기존 방법으로 검증을 하는 것은 불가능해진다.
따라서 파일에 대한 검증, 파일 내용에 대한 검증 이렇게 두 가지로 나뉠 수 있다.
- 파일에 대한 검증 (데이터 복구 기술로 가능)
- 검증 대상 파일이 정상적으로 남아있는가
- 검증 대상 파일의 확장자를 바꾸어 은닉하였는가 (ex. 확장자를 doc -> hwp로)
- 삭제했으나 비할당영역에 남아있는가 (추후에 복구해서 사용할 가능성이 있으므로)
- 파일 내용에 대한 검증 (유사도 or 사용자 행위 추적)
- 검증 대상 파일이 수정되었는가 (ex. 목차 순서만 바꾼 경우)
- 검증 대상 파일 포맷을 바꾸었는가 (ex. png -> jpg로)
- 다른 파일의 일부로 포함되었는가 (ex. 압축파일 내에 존재 or E-mail 파일(PST)의 첨부파일로 존재)
- 사람이 검증 대상 파일의 내용을 새로운 파일에 입력하였는가 (ex. 사진으로 저장된 기술명세서와 같은 파일 내의 텍스트를 워드프로세서 파일에 손으로 타이핑하여 입력한 경우)
다시 말해 '데이터 복구 기술'⊂'완전 삭제 검증' 으로 나타낼 수 있다. 현재 학계에서 데이터 복구에 대한 연구는 활발하게 진행되고 있어, 이를 활용하면 파일 자체에 대한 삭제 여부 검증은 가능하다. 반면 내용(contents)이 다른 변환된 형태로 경우에 대한 연구는 상대적으로 많이 진행되지 않았다.
그 이유는 기술적으로 자동화가 상당히 까다롭기 때문인데, 그렇다 하더라도 디지털 포렌식을 수행할 때에 완전 삭제 검증에 대한 framework는 반드시 필요하다.