1
2
3
forceinline bool isPowerOf2(uint32_t n){
return(n&(n-1))==0;
}
cs


 isPowerOf2은 2의 제곱인지 확인 하는 것이다.


 여기서 본다면, n이 2의 제곱인가에 대해서 확인하는 함수이다.


 이걸 이해하기위해서는 2의 진법에 대해서 알고 있으면 아주 쉽게 표현이 가능하다.


 컴퓨터는 전기로 흐르는 장치이다. 그래서 2의 진법으로 컴퓨터의 숫자가 표현이 된다. 이걸 이용해서 2의 제곱인지를 확인 할 수 있다.


 예을 들어서 2라고 한다면, 10(2)라는 이진수가 표현이 된다.


 여기서 10(2) and 01(2)이 된다면, 동일한 숫자가 없기 때문에, 0이 된다.


 반대로 3인 11(2) and 10(2)가 되면, 1이 나오기 때문에, 0이 되지 않는다.


 동일하게 4와 5을 해보면,


 4일때,

 100(2) and 011(2) 가 되서, 0이 되지만,


 5일때,

 101(2) and 100(2) 가 되서, 0이 되지 않는다.


 이걸 이용해서 3의 제곱이나 그런게 되는지 확인해봤지만, 제대로 되지 않았다.


 4, 8, 16등은 전부다 2의 제곱들이기 때문에, 저 소스로 제곱으로 확인을 할 수 있다는건 알 수 있을 것이다.


 

1
2
3
4
5
forceinline uint bitSize(uint Value){
uint Total=0;
for(;Value;Value>>=1,Total++);
return Total;
}
cs


 이것은 bit크기를 확인하는 함수이다.


 보면, Total은 result이다.


 컴퓨터는 0이면 거짓, 0이외의 값을 가진다면 참으로 처리한다. 그래서 for문에서 조건부분이 들어가는 곳에서 Value만 들어가 있는 것이다.


 그리고 반복에서 Value>>=1은 다시 풀어 적으면, Value = Value >> 1이라는 것으로 우측으로 1bit씩 이동시키는 것이다.


 Total은 그 bit의 갯수를 기록하기 위한 것이고 말이다.


 아직 실력이 부족해서 그런지 완벽하게 분석하는데 시간이 걸리는 것 같다.

 조금 시간을 들여서 더 자세하게 기록을 해야 겠다.

Posted by JunkMam
,

 Util.hpp에 대해서 대충 설명을 하고 넘겼다.


 어떻게 동작하고 되는지 설명을 작성할려고한다.


 

1
2
3
4
5
#ifdef WIN32
#define forceinline __forceinline
#else
#define forceinline inline __attribute__((always_inline))
#endif
cs

 처음에 이렇게 되어 있는게 있다.

 WIN32이란, 컴파일러에 정의되어있는 매크로이다.
 이것은 Win32에 컴파일을 하기 위해서 사용하는 것이다.(Windows OS에서 컴파일을 하지 않을 경우란, 리눅스에서 사용할 경우가 해석이 될 수 있다.)

 __forceinline이라는 것이 있다. 이것은 인라인 함수이다.[각주:1]


 설명을 본다면, 함수의 속도를 높이기 위해서 사용을 한다.[각주:2][각주:3]


 일반적인 함수는 사용할때마다 호출하므로 제어권의 이동이 심해서 실행 속도가 느려진다고 한다. 그리고 데이터형 체크를 할 수 있어서, 오버헤드를 줄인다고 하낟.


 단점은 실행 파일이 커진다고 한다.


 더 자세한 것은 참조 블로그를 읽으면서 확인하길 바란다.


 그래서 Win32(윈도우 운영체제일 경우)에 인라인 함수 매크로로 정의를 시킨다.(다음 소스에서 자주 사용이 된다.)


1
2
3
4
5
6
7
forceinline static bool isUpperCase(int c){
 return c>='A'&&c<='Z';
}
 
forceinline static bool isLowerCase(int c){
 return c>='a'&&c<='z';
}
cs

 isUpperCase랑 isLowerCase는 해당 영문을 받아들여서 대문자인지 소문자인지 알아보는 소스이다.
 여기서 알아야 될 것은 ASCII이다.
 컴퓨터는 모든 데이터를 숫자로 알고 있다.
 그래서 ASCII에서 내용 또한 숫자가 될 수 있고, 문자가 될 수 있다.(출력할때, 문자인지 아닌지 확인해서 처리하는 방식으로 우리가 문자를 출력해준다.)

 그래서 ASCII의 표를 읽어본다면, 대문자의 범위와 소문자의 범위가 있고, 그것을 참과 거짓으로 출력하는 함수이다.

1
2
3
forceinline static bool isWordChar(int c){
 return isLowerCase(c)||isUpperCase(c)||c>=128;
}
cs


 isWordChar 또한, ASCII을 분석하면 나오는 것이다.

 여기서 ASCII는 최대 128가지의 문자만 정의되어 있고, 그 이상은 ASCII에 정의되지 않은 숫자 데이터이다.(이걸 이용해서 UNICODE등을 사용할때, 128초과되는 수를 앞에 사용한다.)


 그래서, 이걸 이용해서 문자인지 아닌지 확인을 한다.(단, 영문이라는 보장은 없다.)


1
2
3
4
5
6
7
8
9
forceinline static int makeLowerCase(int c){
 assert(isUpperCase(c));
 return c-'A'+'a';
}
 
forceinline static int makeUpperCase(int c){
 assert(isLowerCase(c));
 return c-'a'+'A';
}
cs

 makeLowerCase와 makeUpperCase는 대문자를 소문자로, 소문자를 대문자로 만드는 함수이다.

 여기서 assert는 사용자에게 작동을 하다가 오류가 발생하면, 알려주는 작업을 하는 매크로 함수이다.

 #include<cassert> 라는 헤더(assert.h와 동일한 헤더이다.)에서 정의되어 있는 함수이다.

 0을 준다면, 문제가 발생. 0이외의 값을 준다면, 문제가 없음.으로 처리한다.
 이것은 release 모드(실행 파일 생성)일때, 컴파일을 멈춰준다. 그래서 개발자가 어디에서 오류가 났는지 알 수 있게 도움을 줄 수 있다.

 c-'A'+'a'; 라는 것은 일단, 컴퓨터는 모든 데이터가 숫자라고 했다. 'A' 또한, ASCII에서 'A'을 정의된 숫자이다. 그래서 c-'A'처럼 계산이 가능하게 된다.

 c가 'D'라고 가정하자.(여기서 c가 소문자일 경우엔, assert 함수에 의해서 오류가 발생하게 된다.)
 'A'와 'D'의 거리는 4만큼 차이가 나게 된다. 여기서 'a'을 더하게 되면, 'a'의 기준으로 4만큼 간 값이 되기 때문에 'd'가 나오게 된다.

 makeUpperCase 또한 동일한 방식으로 계산이 되는 것이다.

 만약에 c가 대/소문자에 들어가 있지 않다면, assert에 의해서 오류가 발생하게 된다.

 일부는 나중에 더 적는걸로...


  1. 참조 : https://msdn.microsoft.com/ko-kr/library/bw1hbe6y.aspx(2016-07-19) [본문으로]
  2. 인라인 함수 특징과 장단점을 설명하는 블로그 : http://blog.naver.com/PostView.nhn?blogId=sendmade&logNo=80200881136&redirect=Dlog&widgetTypeCall=true [본문으로]
  3. 인라인 함수 특징과 장단점 : http://blog.naver.com/PostView.nhn?blogId=sendmade&logNo=80200881136&redirect=Dlog&widgetTypeCall=true (2016-07-19) [본문으로]
Posted by JunkMam
,

 현재 인공지능을 이용해서 파일을 압축하는 프로그램이 나왔다.

 대표적인 방법으로는 paq라는 프로그램이다.[각주:1]



 paq를 개량해서 lite paq, fast paq 등 경량화 및 속도를 올린 paq 프로그램들이 나왔고, 혹은 paq 방식의 알고리즘인 CM(Context Mixing)을 이용해서 만든 프로그램이 있다.


 여기서 MCM또한 CM 알고리즘을 이용해서 만들어낸 프로그램이다.


 MCM를 사용하는 방법을 작성할려고한다.


 MCM은 일단, 폴더를 제작해서 압축하는 방식이 없다.(단일 파일만 압축할 수 있다는 뜻이다.)


 일단, 각각의 파일을 압축해서 합치는 방식은 오히려 파일 용량의 압축이 적으니 단일 파일을 압축시키는 것이 좋은 경우가 많이 발견되었다.


 MCM을 사용할려면 기본적으로 기준 환경을 맞춰줘야지 속도가 잘 나온다.


 환경

 Memory 최대 8G 이상.


 최고 압축을 사용할려면, Memory가 최대 8G 이상이 아니라면, 오히려 설명이 되어 있는 파일보다 속도가 제대로 안나온다.(페이징 작업에 의해서 속도가 감소하는 걸 느낄 수 있다.)


 paq보다 mcm가 메모리 사용량과 속도명에서 좀 더 좋은 점이 있다.(drt|lpaq을 이용하면 더 낫다 라는 설명이 되어 있지만, drt랑 lpaq가 제대로 안 돌아갔다.)


 아직까진 미완성이지만, mcm를 잘만 사용한다면, 용량을 줄여서 들고 다닐 수 있을 것이라고 나는 생각하고 있다.


 그럼, 이제 MCM을 사용하는 방법을 설명할려고 한다.


 mcm을 친다면, 다음과 같은 문장이 나오는 걸 알 수 있다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Error, input or output files missing
======================================================================
mcm compressor v0.83, by Mathieu Chartier (c)2015 Google Inc.
Experimental, may contain bugs. Contact mathieu.a.chartier@gmail.com
Special thanks to: Matt Mahoney, Stephan Busch, Christopher Mattern.
======================================================================
Caution: Experimental, use only for testing!
Usage: mcm.exe [command] [options] <infile> <outfile>
Options: d for decompress
-{t|f|m|h|x}{1 .. 11} compression option
t is turbo, f is fast, m is mid, h is high, x is max (default mid)
0 .. 11 specifies memory with 32mb .. 5gb per thread (default 6)
10 and 11 are only supported on 64 bits
-test tests the file after compression is done
Examples:
Compress: mcm.exe -m9 enwik8 enwik8.mcm
Decompress: mcm.exe d enwik8.mcm enwik8.ref
Failed to parse arguments
cs


 MCM은 총 4가지의 설정과 0~11까지 설정하는 것이 있다.


 t는 turbo, f는 fast, m는 mid, h는 high, x는 Max이다.(기본적으로 mid로 설정되어 있다.)


 t에서 x로 가면 갈 수록 속도가 느리고, 압축률이 높아진다.


 0~11의 설정이 되는데, 이것은 32Mb에서 5~6GByte까지 사용이 된다.


 여기서 10과 11은 64Bit에서만 지원이 가능하므로, 주의를 요한다. 라고 되어있다.


 그리고 압축을 풀려면, d을 사용하면, decompression이라고 할 수 있다.


 압축/풀기 예제

1
2
mcm -x11 enwik8 enwik8.mcm
mcm d enwik8.mcm enwki8
cs

 

 이렇게 해서 사용을 할 수 있게 된다.


 이것이 조금 더 발전을 해서 압축율이 높은 프로그램이 완성이 되었으면 한다.

  1. 참조 : https://en.wikipedia.org/wiki/PAQ(2016-07-08) [본문으로]
Posted by JunkMam
,