압축 현황

연습 2017. 1. 21. 23:56

 Hutter Prize 가 끝났다.


 http://mattmahoney.net/dc/text.html


 2016년 11월 8일날 업데이트를 최종으로 종료가 되었다.


 CMix v12가 현재 최종 압축률이 높은 상태이고, 나머지는 별로 변한게 없다.


 drt|lpaq9m이 현재로는 최고로 괜찮지만, 바이러스로 취급이 되어서 별로 변한게 없다.


 2016년 11월 8일날 cmix v12가 추가 되었다.


 좀 더 압축이 된 상태로 압축 경과 시간와 메모리가 증가된 상태이다.


 약 32GByte가 필요하다는 점에선 cmix가 문제가 된다.


 그나마 쓸만한 툴은 mcm 프로그램말곤 딱힌 없는 것 같다.


 특히, drt | lpaq9m이 바이러스로 취급 당하고 있다는 부분에서 아깝게 생각이 든다.

Posted by JunkMam
,
 7z등 압축 프로그램을 사용해야되는 일이 생겼다.

 그래서 7zip을 사용하는 방법을 여기에 기록할려고 한다.

  7z을 설치하는 방법은 GUI와 그냥 7z-command, source build 등 다양한 방법이 있으다.(Windows에서는 GUI가 대부분이다.)

 GUI방식은 다음과 같다.

 http://www.7-zip.org/download.html에 들어가서 7zip을 다운 받는다.

 Download 7-zip에서 .exe과 .msi는 설치 프로그램으로 만들어진 파일들이다.

 



 여기서 7-zip for 32-bit혹은 64-bit에 맞춰서 설치하면, 실행이 된다.(OS가 64-bit인데, 32-bit 파일을 받아도 상관없으나. OS가 32-bit인데, 64-bit 파일을 받아서 사용하는 것은 문제가 되니 주의해서 다운 받길 바란다.)


 여기서 압축을 풀면 알아서 설치가 되는걸 알 수 있다.


 소스빌더는 방법이 다양해서 넘기도록 하겠다.(컴파일로 차근차근 컴파일해나가야 된다.)


 command 방식으로 압축할때는 다음과 같은 방법을 사용한다.


 7z a num.7z num


 여기서 7z의 명령어에서 a는 압축을 한다는 뜻으로 쓰인다.


 7z에서는 zip과 7z등을 지원해주는데, 이것을 압축 타입이라고 한다.


 -tzip 혹은 -t7z -tgzip 등을 이용하면, 다양한 종류로 압축이 된다. 만약, 이게 없다면, 기본적으로 파일의 확장자에 따라서 결정이 된다.


 압축을 풀때는 다음과 같이 사용한다.


 7z x num.7z


 여기서


 7z e num.7z을 사용할 경우. 디렉토리 상관 없이 파일이 풀리게 된다.(경로를 상관 없이 풀리게 된다.) 그래서 이름이 중복이 되는 경우에는 문제가 발생한다.


 7z x num.7z을 사용하면 경로에 맞춰서 파일이 풀리니 이것을 이용하면 된다.


 -scs가 있다. 이것은 파일 경로의 문자열을 뭘로 할 것인지 정하는 것이다.


 UTF-8으로 할것인지. 혹은 UTF-16등으로 저장할 것인지 나와있다.


 왠만해선 UTF-8로 저장하는게 유동성이 있을 것으로 보인다.

 


 

'연습' 카테고리의 다른 글

7z Command Line 암호 걸기  (0) 2017.01.04
PowerShell CD Eject/Close 설정하는 방법.  (0) 2017.01.03
CD-Rom eject(CD롬 열기 소스) 소스  (0) 2017.01.01
최신 코덱인 AV1 현황.  (0) 2016.12.24
powershell 비프음 발생시키기.  (0) 2016.11.15
Posted by JunkMam
,

 GPL을 따르는 MCM의 소스를 보고 일부 분석할려고 한다.


 여기서 HPP에 설정된 일부 소스만 작성할려고 한다.


 전체 소스

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
/*    MCM file compressor
    Copyright (C) 2013, Google Inc.
    Authors: Mathieu Chartier
    LICENSE
    This file is part of the MCM file compressor.
    MCM is free software: you can redistribute it and/or modify
    it under the terms of the GNU General Public License as published by
    the Free Software Foundation, either version 3 of the License, or
    (at your option) any later version.
    MCM is distributed in the hope that it will be useful,
    but WITHOUT ANY WARRANTY; without even the implied warranty of
    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
    GNU General Public License for more details.
    You should have received a copy of the GNU General Public License
    along with MCM.  If not, see <http://www.gnu.org/licenses/>.
*/
 
#ifndef _UTIL_HPP_
#define _UTIL_HPP_
 
#include <cassert>
#include <ctime>
#include <emmintrin.h>
#include <iostream>
#include <mmintrin.h>
#include <mutex>
#include <ostream>
#include <stdint.h>
#include <sstream>
#include <string>
#include <vector>
 
#ifdef WIN32
#define forceinline __forceinline
#else
#define forceinline inline __attribute__((always_inline))
#endif
#define ALWAYS_INLINE forceinline
 
#define no_alias __restrict
 
#ifndef BYTE_DEFINED
#define BYTE_DEFINED
typedef unsigned char byte;
#endif
 
#ifndef UINT_DEFINED
#define UINT_DEFINED
typedef unsigned int uint;
#endif
 
#ifndef WORD_DEFINED
#define WORD_DEFINED
typedef unsigned short word;
#endif
 
// TODO: Implement these.
#define LIKELY(x) x
#define UNLIKELY(x) x
 
#ifdef _DEBUG
static const bool kIsDebugBuild = true;
#else
static const bool kIsDebugBuild = false;
#endif
 
#ifdef _MSC_VER
#define ASSUME(x) __assume(x)
#else
#define ASSUME(x)
#endif
    
typedef uint32_t hash_t;
 
static const uint64_t KB = 1024;
static const uint64_t MB = KB * KB;
static const uint64_t GB = KB * MB;
static const uint32_t kCacheLineSize = 64// Sandy bridge.
static const uint32_t kPageSize = 4 * KB;
static const uint32_t kBitsPerByte = 8;
 
forceinline void prefetch(const void* ptr) {
#ifdef WIN32
    _mm_prefetch((char*)ptr, _MM_HINT_T0);
#else
    __builtin_prefetch(ptr);
#endif
}
 
forceinline static bool isUpperCase(int c) {
    return c >= 'A' && c <= 'Z';
}
forceinline static bool isLowerCase(int c) {
    return c >= 'a' && c <= 'z';
}
forceinline static bool isWordChar(int c) {
    return isLowerCase(c) || isUpperCase(c) || c >= 128;
}
forceinline static int makeLowerCase(int c) {
    assert(isUpperCase(c));
    return c - 'A' + 'a';
}
forceinline static int makeUpperCase(int c) {
    assert(isLowerCase(c));
    return c - 'a' + 'A';
}
 
// Trust in the compiler
forceinline uint32_t rotate_left(uint32_t h, uint32_t bits) {
    return (h << bits) | (h >> (sizeof(h) * 8 - bits));
}
 
forceinline uint32_t rotate_right(uint32_t h, uint32_t bits) {
    return (h << (sizeof(h) * 8 - bits)) | (h >> bits);
}
 
#define check(c) while (!(c)) { std::cerr << "check failed " << #c << std::endl*reinterpret_cast<int*>(1234= 4321;}
#define dcheck(c) assert(c)
 
template <const uint32_t A, const uint32_t B, const uint32_t C, const uint32_t D>
struct shuffle {
    enum {
        value = (D << 6| (C << 4| (B << 2| A,
    };
};
 
forceinline bool isPowerOf2(uint32_t n) {
    return (n & (n - 1)) == 0;
}
 
forceinline uint bitSize(uint Value) {
    uint Total = 0;
    for (;Value;Value >>= 1, Total++);
    return Total;
}
 
template <typename T>
void printIndexedArray(const std::string& str, const T& arr) {
    uint32_t index = 0;
    std::cout << str << std::endl;
    for (const auto& it : arr) {
        if (it) {
            std::cout << index << ":" << it << std::endl;
        }
        index++;
    }
}
 
template <const uint64_t n>
struct _bitSize {static const uint64_t value = 1 + _bitSize</ 2>::value;};
 
template <>
struct _bitSize<0> {static const uint64_t value = 0;};
 
inline void fatalError(const std::string& message) {
    std::cerr << "Fatal error: " << message << std::endl;
    *reinterpret_cast<uint32_t*>(1234= 0;
}
 
inline void unimplementedError(const char* function) {
    std::ostringstream oss;
    oss << "Calling implemented function " << function;
    fatalError(oss.str());
}
 
inline uint32_t rand32() {
    return rand() ^ (rand() << 16);
}
 
forceinline int fastAbs(int n) {
    int mask = n >> 31;
    return (n ^ mask) - mask;
}
 
bool fileExists(const char* name);
 
class Closure {
public:
    virtual void run() = 0;
};
 
template <typename Container>
void deleteValues(Container& container) {
    for (auto* p : container) {
        delete p;
    }
    container.clear();
}
 
class ScopedLock {
public:
    ScopedLock(std::mutex& mutex) : mutex_(mutex) {
        mutex_.lock();
    }
 
    ~ScopedLock() {
        mutex_.unlock();
    }
 
private:
    std::mutex& mutex_;
};
 
forceinline void copy16bytes(byte* no_alias out, const byte* no_alias in, const byte* limit) {
    _mm_storeu_ps(reinterpret_cast<float*>(out), _mm_loadu_ps(reinterpret_cast<const float*>(in)));
}
 
forceinline static void memcpy16(void* dest, const void* src, size_t len) {
    uint8_t* no_alias dest_ptr = reinterpret_cast<uint8_t* no_alias>(dest);
    const uint8_t* no_alias src_ptr = reinterpret_cast<const uint8_t* no_alias>(src);
    const uint8_t* no_alias limit = dest_ptr + len;
    *dest_ptr++ = *src_ptr++;
    if (len >= sizeof(__m128)) {
        const byte* no_alias limit2 = limit - sizeof(__m128);
        do {
            copy16bytes(dest_ptr, src_ptr, limit);
            src_ptr += sizeof(__m128);
            dest_ptr += sizeof(__m128);
        } while (dest_ptr < limit2);
    }
    while (dest_ptr < limit) {
        *dest_ptr++ = *src_ptr++;
    }
}
 
template<typename CopyUnit>
forceinline void fastcopy(byte* no_alias out, const byte* no_alias in, const byte* limit) {
    do {
        *reinterpret_cast<CopyUnit* no_alias>(out) = *reinterpret_cast<const CopyUnit* no_alias>(in);
        out += sizeof(CopyUnit);
        in += sizeof(CopyUnit);
    } while (in < limit);
}
 
forceinline void memcpy16unsafe(byte* no_alias out, const byte* no_alias in, const byte* limit) {
    do {
        copy16bytes(out, in, limit);
        out += 16;
        in += 16;
    } while (out < limit);
}
 
template<uint32_t kMaxSize>
class FixedSizeByteBuffer {
public:
    uint32_t getMaxSize() const {
        return kMaxSize;
    }
 
protected:
    byte buffer_[kMaxSize];
};
 
// Move to front.
template <typename T>
class MTF {
    std::vector<T> data_;
public:
    void init(size_t n) {
        data_.resize(n);
        for (size_t i = 0; i < n; ++i) {
            data_[i] = static_cast<T>(n - 1 - i);
        }
    }
    size_t find(T value) {
        for (size_t i = 0; i < data_.size(); ++i) {
            if (data_[i] == value) {
                return i;
            }
        }
        return data_.size();
    }
    forceinline T back() const {
        return data_.back();
    }
    size_t size() const {
        return data_.size();
    }
    void moveToFront(size_t index) {
        auto old = data_[index];
        while (index) {
            data_[index] = data_[index - 1];
            --index;
        }
        data_[0= old;
    }
};
 
template <class T, size_t kSize>
class StaticArray {
public:
    StaticArray() {
    }
    ALWAYS_INLINE const T& operator[](size_t i) const {
        return data_[i];
    }
    ALWAYS_INLINE T& operator[](size_t i) {
        return data_[i];
    }
    ALWAYS_INLINE size_t size() const {
        return kSize;
    }
 
private:
    T data_[kSize];
};
 
template <class T, uint32_t kCapacity>
class StaticBuffer {
public:
    StaticBuffer() : pos_(0), size_(0) {
    }
    ALWAYS_INLINE const T& operator[](size_t i) const {
        return data_[i];
    }
    ALWAYS_INLINE T& operator[](size_t i) {
        return data_[i];
    }
    ALWAYS_INLINE size_t pos() const {
        return pos_;
    }
    ALWAYS_INLINE size_t size() const {
        return size_;
    }
    ALWAYS_INLINE size_t capacity() const {
        return kCapacity;
    }
    ALWAYS_INLINE size_t reamainCapacity() const {
        return capacity() - size();
    }
    ALWAYS_INLINE T get() {
        (pos_ < size_);
        return data_[pos_++];
    }
    ALWAYS_INLINE void read(T* ptr, size_t len) {
        dcheck(pos_ + len <= size_);
        std::copy(&data_[pos_], &data_[pos_ + len], &ptr[0]);
        pos_ += len;
    }
    ALWAYS_INLINE void put(T c) {
        dcheck(pos_ < size_);
        data_[pos_++= c;
    }
    ALWAYS_INLINE void write(const T* ptr, size_t len) {
        dcheck(pos_ + len <= size_);
        std::copy(&ptr[0], &ptr[len], &data_[pos_]);
        pos_ += len;
    }
    ALWAYS_INLINE size_t remain() const {
        return size_ - pos_;
    }
    void erase(size_t chars) {
        dcheck(chars <= pos());
        std::move(&data_[chars], &data_[size()], &data_[0]);
        pos_ -= std::min(pos_, chars);
        size_ -= std::min(size_, chars);
    }
    void addPos(size_t n) {
        pos_ += n;
        dcheck(pos_ <= size());
    }
    void addSize(size_t n) {
        size_ += n;
        dcheck(size_ <= capacity());
    }
    T* begin() {
        return &operator[](0);
    }
    T* end() {
        return &operator[](size_);
    }
    T* limit() {
        return &operator[](capacity());
    }
 
private:
    size_t pos_;
    size_t size_;
    T data_[kCapacity];
};
 
std::string prettySize(uint64_t size);
std::string formatNumber(uint64_t n);
double clockToSeconds(clock_t c);
std::string errstr(int err);
std::vector<byte> randomArray(size_t size);
uint64_t computeRate(uint64_t size, uint64_t delta_time);
std::vector<byte> loadFile(const std::string& name, uint32_t max_size = 0xFFFFFFF);
std::string trimExt(const std::string& str);
 
#endif
 
cs


 여기서 일부 자주 사용될 듯한 간단한 소스가 구현이 되어 있어서 설명을 넣을려고 한다.


1
2
3
static const uint64_t KB = 1024;
static const uint64_t MB = KB * KB;
static const uint64_t GB = KB * MB;
cs


 윗 소스는 메모리 크기의 KB및 MB, GB를 정의내리는 것이다.

 static이자 const이기 때문에, 매크로랑 유사하다. 라고 봐도 무관하다.


 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
forceinline static bool isUpperCase(int c) {
    return c >= 'A' && c <= 'Z';
}
forceinline static bool isLowerCase(int c) {
    return c >= 'a' && c <= 'z';
}
forceinline static bool isWordChar(int c) {
    return isLowerCase(c) || isUpperCase(c) || c >= 128;
}
forceinline static int makeLowerCase(int c) {
    assert(isUpperCase(c));
    return c - 'A' + 'a';
}
forceinline static int makeUpperCase(int c) {
    assert(isLowerCase(c));
    return c - 'a' + 'A';
}
 
// Trust in the compiler
forceinline uint32_t rotate_left(uint32_t h, uint32_t bits) {
    return (h << bits) | (h >> (sizeof(h) * 8 - bits));
}
 
forceinline uint32_t rotate_right(uint32_t h, uint32_t bits) {
    return (h << (sizeof(h) * 8 - bits)) | (h >> bits);
}
cs



 isUpperCase라는 것은 함수명에 설명 되어있듯, 대문자인지를 확인하는 소스이다.

 isLowerCase라는 것은 함수명에 설명 되어있듯, 소문자인지를 확인하는 소스이다.

 isWordChar라는 것은 함수명에 설명 되어있듯, 문자인지를 확인하는 소스이다.


 makeLowerCase라는 것은 함수명에 설명 되어있듯, 대문자를 소문자로 바꾸는 소스이다.

 makeUpperCase라는 것은 함수명에 설명 되어있듯, 소문자를 대문자로 바꾸는 소스이다.


rotate_left라는 것은 함수명에 설명 되어있듯, 왼쪽으로 회전, right는 오른쪽으로 회전 소스이다. 

Posted by JunkMam
,

 현재 인공지능을 이용해서 파일을 압축하는 프로그램이 나왔다.

 대표적인 방법으로는 paq라는 프로그램이다.[각주:1]



 paq를 개량해서 lite paq, fast paq 등 경량화 및 속도를 올린 paq 프로그램들이 나왔고, 혹은 paq 방식의 알고리즘인 CM(Context Mixing)을 이용해서 만든 프로그램이 있다.


 여기서 MCM또한 CM 알고리즘을 이용해서 만들어낸 프로그램이다.


 MCM를 사용하는 방법을 작성할려고한다.


 MCM은 일단, 폴더를 제작해서 압축하는 방식이 없다.(단일 파일만 압축할 수 있다는 뜻이다.)


 일단, 각각의 파일을 압축해서 합치는 방식은 오히려 파일 용량의 압축이 적으니 단일 파일을 압축시키는 것이 좋은 경우가 많이 발견되었다.


 MCM을 사용할려면 기본적으로 기준 환경을 맞춰줘야지 속도가 잘 나온다.


 환경

 Memory 최대 8G 이상.


 최고 압축을 사용할려면, Memory가 최대 8G 이상이 아니라면, 오히려 설명이 되어 있는 파일보다 속도가 제대로 안나온다.(페이징 작업에 의해서 속도가 감소하는 걸 느낄 수 있다.)


 paq보다 mcm가 메모리 사용량과 속도명에서 좀 더 좋은 점이 있다.(drt|lpaq을 이용하면 더 낫다 라는 설명이 되어 있지만, drt랑 lpaq가 제대로 안 돌아갔다.)


 아직까진 미완성이지만, mcm를 잘만 사용한다면, 용량을 줄여서 들고 다닐 수 있을 것이라고 나는 생각하고 있다.


 그럼, 이제 MCM을 사용하는 방법을 설명할려고 한다.


 mcm을 친다면, 다음과 같은 문장이 나오는 걸 알 수 있다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Error, input or output files missing
======================================================================
mcm compressor v0.83, by Mathieu Chartier (c)2015 Google Inc.
Experimental, may contain bugs. Contact mathieu.a.chartier@gmail.com
Special thanks to: Matt Mahoney, Stephan Busch, Christopher Mattern.
======================================================================
Caution: Experimental, use only for testing!
Usage: mcm.exe [command] [options] <infile> <outfile>
Options: d for decompress
-{t|f|m|h|x}{1 .. 11} compression option
t is turbo, f is fast, m is mid, h is high, x is max (default mid)
0 .. 11 specifies memory with 32mb .. 5gb per thread (default 6)
10 and 11 are only supported on 64 bits
-test tests the file after compression is done
Examples:
Compress: mcm.exe -m9 enwik8 enwik8.mcm
Decompress: mcm.exe d enwik8.mcm enwik8.ref
Failed to parse arguments
cs


 MCM은 총 4가지의 설정과 0~11까지 설정하는 것이 있다.


 t는 turbo, f는 fast, m는 mid, h는 high, x는 Max이다.(기본적으로 mid로 설정되어 있다.)


 t에서 x로 가면 갈 수록 속도가 느리고, 압축률이 높아진다.


 0~11의 설정이 되는데, 이것은 32Mb에서 5~6GByte까지 사용이 된다.


 여기서 10과 11은 64Bit에서만 지원이 가능하므로, 주의를 요한다. 라고 되어있다.


 그리고 압축을 풀려면, d을 사용하면, decompression이라고 할 수 있다.


 압축/풀기 예제

1
2
mcm -x11 enwik8 enwik8.mcm
mcm d enwik8.mcm enwki8
cs

 

 이렇게 해서 사용을 할 수 있게 된다.


 이것이 조금 더 발전을 해서 압축율이 높은 프로그램이 완성이 되었으면 한다.

  1. 참조 : https://en.wikipedia.org/wiki/PAQ(2016-07-08) [본문으로]
Posted by JunkMam
,

 Hutter 상의 결과물을 본 것 중에 xwrt라는 프로그램을 찾아 봤다.[각주:1]


 압축률이 약 18%가량이고, 메모리 사용량도 약 1.5G이다.


 LPAQ6을 변경한 프로그램이다.


 여기서 LPAQ란, Lite PAQ의 약칭이다.

 Lite PAQ는, 가벼운 PAQ 모델을 만들고, 그 모델로 압축하는 프로그램이다.

 lpaq9m또한 Lite PAQ에 속하는 것이다.

 현재, Hutter 상을 받은 제품이 drt|lpaq9m이며, 이것은 압축률은 약 10위 안에 든다.

 거기에 처리속도, 메모리에서 효율적이며, 압축률 또한 높아서 받은 것 같다.


 Tangelo는 문제가 2G이상을 처리할 수 없다.(이건 drt|lpaq9m에서도 동일하다고 적혀 있다.)


 mcm은 2G이상은 처리할 수 있지만, 문제는 메모리 사용량에 문제이다.


 xwrt는 2G이상을 처리 할 수 있으며, Lite PAQ에 변형체인 만큼 메모리 량도 2G이상을 넘치지 않는다.(MCM은 Hutter 상의 결과물 만큼 볼려면, 5.6G이상의 메모리를 사용한다.)


 xwrt와 tangelo의 차이는

 xwrt는 paq에서도 lpaq에서 파생된 압축이고, tangelo는 paq에서 fpaq에서 파생된것이다.(fpaq의 약자로 fp라고 한다.)


 최대 값으로 처리하는 방법으로

 -l14 -b255 -m96 -s -e4000 -f200 대상 파일명.


 이렇게 처리한다.

 -l14는 level 14라는 뜻이고,

 -b255는 255의 수를 뜻하고,

 -e4000는 단어가 40000단어 라는 뜻이라고 한다.

 자세한건 도움말을 참조 할것.

  1. xwrt(2015-11-05) [본문으로]

'연습' 카테고리의 다른 글

GAR --Help  (0) 2015.11.11
GCC --help  (0) 2015.11.10
GAS --help  (0) 2015.11.07
TANGELO - PAQ8 / FP8 에서 파생된 압축 파일 -  (0) 2015.11.05
MCM -압축과 속도가 빠른 압축 툴-  (0) 2015.11.03
Posted by JunkMam
,

 mcm[각주:1]는 메모리가 많이 들어간 문제점이 있었다.(약 5.2G가량 들게 된다.)


 그래서 조금 시간이 걸리더라도, 메모리를 적게먹는(약 1G가량 먹는) lpaq9m을 찾고 있다가 찾게된 프로그램이다.


 이것은 mcm보다 압축율이 높은 것 같다.


 메모리 할당은 약 500Mb가 들게 된다.


 현재 테스트 한 결과 압축률이 mcm보다 높아서 이용하면, 많이 압축 할 수 있을 것 같다.


 다운 경로는 다음과 같다.


 TANGELO


 문제는 속도가 느리다는 점인데, 속도만 개선되면, 꽤 쓸만 할 것 같다.


 현재, 안전한지 확인은 하지 않았지만, 압축율/메모리 할당량이 paq보단 낮은거 보면, 괜찮은 것 같다.


 FP8이란, Fast PAQ의 약칭으로 PAQ 압축을 빠르게 개선한 것이다.

 lpaq9m은 이것의 2~3배 되는 메모리에 속도는 유사하다.

Posted by JunkMam
,

 오늘 압축 대회에 있는 툴[각주:1]을 보고 다녔는데, compress/decompress을 하는 속도가 빠르면서 압축률이 높은 툴을 찾아서 여기에 적는다.


 이 툴의 특징은 메모리가 많이 가지고 있다는 것. 압축 방식이 CM이라는 점이다.

 속도가 nanozip과 비슷하거나 조금 더 빠른 걸로 적혀 있다.


 



 실제로 비교해보니 조금 차이가 있다.

 하지만, 메모리가 크게 잡아먹는다.(유사한 효과로 할려면, nanozip보단 적게 먹는다고 적혀 있다. 필자는 실제로 못하기 때문에[필자의 환경은 M 8G이다.] 제대로 실험은 못해봤다.)


 실제로 해보니 약, 6G를 먹는다.

 단, 효율은 0.75만큼으로, 용량이 약 0.74~5 가량 줄었다.


 mcm83을 사용할 경우, 700Mb -> 500Mb가 되는걸 확인 했다.(이때, 자동으로 M 6G가량 먹었다.) 속도는 -m11로 잡았다.(mid 11이라는 뜻으로, m은 속도가 중간으로 맞춰서 처리한다는 뜻이라고 적혀 있다.)

 Nanozip은 512Mb로 했을시, 700Mb -> 550Mb가 된다.(이때, M 512M이다. 그 이상을 사용할려고하면, 오류에 의해서 작동이 안된다.)


 compress속도와 decompress속도는 nanozip과 유사했다.


 압축은 메모리를 많이 쓸 수록 효과적으로 나올 가능성이 높다.(drt|lpag9m은 윈도우 방어 장치에 의해서 실행이 되지 않았다. 바이러스가 발견했다고...)


 그래서, MCM은 메모리가 큰 컴퓨터에 압축할 경우, 효율적으로 압축이 되는걸 알 수 있었다.


 nanozip은 compress할때, decompress할때, 동일한 메모리가 사용이 된다.


 자기 컴퓨터가 메모리가 크다. 라고 할 경우 MCM에 맞을지도 모르겠다.


 단, 그냥 편하게 쓰고 싶으면, zip이 가장 낫다.

 필자는 용량 최대한 줄여서 저장하고자 하기 때문에, 하는 것일 뿐이다.

 

Posted by JunkMam
,

 어제 테스트해서 보니, 압축 방식을 어떻게 하느냐에 따라서 압축률이 증가한다는걸 알아 냈다.


 답은 TAR로 한번 폴더와 파일을 한 파일로 몰아 넣은 후에 압축하면, 상대적으로 엄청 많은 압축률을 보여준다.


 ZIP이나 ZIPX는 압축률이 높은 알고리즘을 사용한다.

 특히, ZIPX는 최근에 발전된 방식의 압축 방식이다.

 여기서 ZIP과 ZIPX의 공통점은 LZ77을 이용한다는 점이다.(ZIP은 DEFLATE, ZIPX는 LZMA)

 여기서 압축률이 가장 높은것은 LZMA이다.

 그런데, LZMA의 압축률이 높은 것은 LZ77의 사전의 크기가 크기 때문에 그런 것이다.


 LZ77의 사전 크기는 압축률을 뜻하고.

 사전를 빠르게 탐색하는 것은 압축 속도를 높이는 장치이다.


 즉, 검색 알고리즘이 발전하면, 압축속도가 높아진다.

 사전 크기(저장하는 데이터)가 커지면, 압축률이 높고, 이 사전에 검색을 빠르게 하는 알고리즘을 적용하면, 빠르고 압축률이 높은 알고리즘이 생긴다.


 일단, ZIP은 LZ77의 최대 사전 크기가 32kb이다.

 하지만, ZIPX는 LZ77의 최대 사전 크기가 4Gb이다.


 그래서 LZMA(LZ77의 사전 크기가 4Gb)가 압축률이 가장 높다.


 그럼, 왜 TAR을 했던것과 그냥 하는 것과 압축률이 엄청 차이나는가?


 TAR을 이용하여, ZIPX을 적용하면, 사전을 전부다 적용 시킬 수 있기 때문이다.


 ZIPX는 각 파일마다 LZMA 압축을 하기 때문에 제대로된 압축이 되지 않는다.


 7Z는 TAR처럼 한번 압축을 거치기 때문인지 ZIPX보다 압축률이 높을때가 높다.

 TAR+ZIPX을 한것과 비슷하거나 조금더 압축이 된다.

 그래서 7Z을 사용하거나 TAR+ZIPX을 쓰는게 더 이득이다.

Posted by JunkMam
,

 요즘 Google에서 Open Source로 공개한, Brotli라는게 있다.

 이게 압축율이 좋다고 한다.


 좁플라이보다 개량되서 20% 향상되었다고 한다.[각주:1]

 그래서 구글링을 해서 exe파일로 구해봤다.[각주:2]


 현재, 테스트 해본 결과


 mp4파일(원본) : 297624674kbyte = 100%

 zip[반디집] : 266413245 = 89.51%

 zipx[반디집] : 41239013 = 13.85%

 brotli : 40981074 = 13.76%

 paq8o10t [8] : 40088746 = 13.47%

 

 

 이렇게 압축파일의 효율적으로 처리되는걸 알 수 있다.


 압축 속도는 zipx(LZMA) 보다 느리나, 압축율과 압축 해제속도는 상대적으로 비슷하거나 높음을 알 수 있다.


 하지만, 역시 PAQ알고리즘보단, 낮다.

 단, 속도를 비교해보니, PAQ가 시간이 엄청오래 걸리고 메모리를 많이 먹는 것 비해.

 이정도(약 1Mb차이)면, 괜찮은 것 같다.


 --2015.10.07--


 확인해보니 아직 brotli는 문제점이 있는 것 같다.

 반디집의 zipx을 이용하는 것과 brotli을 이용하는걸 비교해보니, zipx가 오히려 더 이득적인게 있다.

 그냥, 반디집의 zipx을 이용하는게 더 이득이다.(속도로나 압축률로 보나...)



Brotli.exe


'연습' 카테고리의 다른 글

구글 포토스 - JPEG와 PNG의 차이점.  (0) 2015.10.08
- 잡소리 - 압축 프로그램 이용 방법  (0) 2015.10.07
- 잡소리 - 단일 처리와 병렬 처리  (0) 2015.10.05
base64 -1 : base64 응용 -  (0) 2015.10.04
base64 - 0 : 이론 -  (0) 2015.10.03
Posted by JunkMam
,

PAQ8o10t

연습 2015. 6. 10. 00:20

PAQ8o10t


압축률이 높은 PAQ는 무손실 압축 방식을 사용하는 압축 프로그램이다.


시간/메모리는 효율성은 떨어지나, 압축률은 극한으로 올린 프로그램이라고 보면 된다.


산술 코딩으로 인하여, 메모리 사용량이 증가한다는 문제점이 있다.


[각주:1]

 Program

Compressed

size (bytes) 

% of orignal

size 

Compression

time (s) 

Memory (MiB)

PAQ8HP8 

133,423,109 

13.34 

64639 

1849 

PPMd 

183,876,014 

18.4 

880 

256 

bzip2 

254,007,875 

25.4 

379 

InfoZIP 

322,649,703 

32.26 

104 

0.1 


PAQ에서도 차이점이 있다.


[각주:2] PAQ에 대한 자료

PAQ.pdf


실행 파일

paq8o10t.exe


  1. [참조] PAQ - Wiki https://en.wikipedia.org/wiki/PAQ (2015-06-10) [본문으로]
  2. http://tcs.rwth-aachen.de/lehre/Komprimierung/SS2012/ausarbeitungen/PAQ.pdf (2015-06-10) [본문으로]
Posted by JunkMam
,