14.1. Rippowanie DVD do wysokiej jakości pliku MPEG-4 ("DivX")

Jednym z często zadawanych pytań jest "Jak zrobić rip najlepszej jakości przy danej objętości?". Innym pytaniem jest "Jak zrobić najlepszy możliwy rip? Nie ważne jaka będzie objętość, chcę najlepszej jakości."

To drugie pytanie jest przynajmniej źle postawione. W końcu, jeśli nie przejmujesz się wielkością pliku, mógłbyć po prostu skopiować strumień MPEG-2 z DVD. Pewnie, dostaniesz AVI wielkości około 5GB, ale jeśli chcesz najlepszej jakości i nie przejmujesz się wielkością to jest to najlepsze wyjście.

Tak na prawdę, powodem dla którego chcesz przekodować DVD na MPEG-4 jest to, że przejmujesz się wielkością pliku.

Ciężko jest pokazać książkowy przepis na tworzenie ripu DVD bardzo wysokiej jakości. Trzeba wziąć pod uwagę kilka czynników, i powinieneś rozumieć szczegóły albo masz dużą szansę że nie będziesz zadowolony z wyników. Poniżej zbadamy niektóre problemy i pokażemy przykład. Zakładamy że używasz libavcodec do kodowania obrazu, chociaż ta sama teoria działą też przy innych kodekach.

Jeśli to wydaje Ci się za dużo, to pewnie powinieneś użyć jednej z wielu nakładek dostępnych w sekcji MEncodera naszej strony z powiązanymi projektami. W ten sposób, powinno się udać otrzymać ripy wysokiej jakości bez zbyt myślenia za dużo, ponieważ te narzędzia są projektowane by podejmować za Ciebie mądre decyzje.

14.1.1. Przygotowanie do kodowania: Identyfikowanie materiału źródłowego i framerate

Zanim w ogóle zaczniesz myśleć o kodowaniu filmu, musisz podjąć kilka początkowych kroków.

Pierwszym i najważniejszym krokiem przed kodowaniem powinno być ustalenie jakim typem filmu się zajmujesz. Jeśli Twój film jest z DVD albo telewizji (zwykłej, kablowej czy satelitarnej), będzie w jednym z dwóch formatów: NTSC w Ameryce Północnej i Japonii, PAL w Europie itp. Trzeba sobie jednak zdawać sprawę z tego, że jest to tylko format do prezentacji w telewizji, i często ne jest oryginalnym formatem filmu. Doświadczenie pokazuje że filmy NTSC są trudniejsze do kodowania, ponieważ jest więcej elementów do zidentyfikowania w źródle. Żeby zrobić odpowienie kodowanie musisz znać oryginalny format filmu. Nieuwzględnienie tego skutkuje wieloma wadami wynikowego pliku, na przykład brzydkie artefakty przeplotu i powtórzone albo zagubione klatki. Poza tym że są pbrzydkie, artefakty są też szkodliwe dla kodowania: Dostaniesz gorszą jakość na jednostkę bitrate.

14.1.1.1. Ustalanie źródłowego framerate

Poniżej jest lista popularnych typów materiału źródłowego, gdzie można je najczęściej znaleźć i ich własności:

  • Typowy film: Tworzony do wyświetlania przy 24fps.

  • Film PAL: Nagrywany kamerą video PAL z prędkością 50 pól na sekundę. Pole składa się tylko z parzystych albo nieparzystych linii klatki. Telewizja była projektowana by odświerzać je naprzemiennie, jako tania forma analogowej kompresji. Ludzkie oko podobno kompensuje ten efekt, ale jeśli zrozumiesz przeplot nauczysz się go widzieć też w telewizji i nigdy już nie będziesz z niej zadowolony. Dwa pola nie dają pełnej klatki, ponieważ są uchwycone co 1/50 sekundy, więc nie pasują do siebie, chyba że nie ma ruchu.

  • Film NTSC: Nagrany kamerą NTSC z prędkością 6000/1001 pól na sekundę, albo 60 pól na sekundę w erze przedkolorowej. Poza tym podobny do PAL.

  • Animacja: Zazwyczaj rysowana przy 24fps, ale zdarzają się też z mieszanym framerate.

  • Grafika komputerowa (CG): Może być dowolny framerate, ale niektóre są częstsze niż inne; wartości 24 i 30 klatek na sekundę są typowe dla NTSC, a 25fps jest typowe dla PAL.

  • Stary film: Rozmaite niższe framerate.

14.1.1.2. Identyfikowanie materiału źródłowego

Filmy składające się z klatek nazywa się progresywnymi, podczas gdy te składające się z niezależnych pól nazywa się z przeplotem, albo filmem - chociaż ten drugi termin jest niejasny.

Żeby nie było za łatwo, niektóre filmy są kombinacją kilku powyższych typów.

Najważniejszą różnicą między tymi formatami, jest to że niektóre są oparte na klatkach a inne na polach. Zawsze gdy film jest przygotowywany do wyświetlania w telewizji jest przekształcany na format oparty na polach. Rozliczne metody którymi się tego dokonuje są wspólnie nazywane "pulldown", a niesławne "3:2 telecine" z NTSC jest jednym z jego rodzajów. Jeżeli oryginał nie był też oparty na polach (z tą samą prędkością), dostajesz film w innym formacie niż oryginał.

Jest kilka popularnych typów pulldown:

  • pulldown PAL 2:2: Najprzyjemniejszy z nich wszystkich. Każda klatka jest pokazywana przez czas dwóch pól, poprzez wydobycie parzystych i nieparzystych linii i pokazywanie ich na przemian. Jeśli oryginalny materiał miał 24fps, ten proces przyspiesza film o 4%.

  • pulldown PAL 2:2:2:2:2:2:2:2:2:2:2:3: Każda 12ta klatka jest pokazywana przez czas trzech pól zamiast tylko dwóch. Dzięki temu nie ma przyspieszenia o 4%, ale proces jest o wiele trudniejszy do odtworzenia. Zazwyczaj występuje w produkcjach muzycznych, gdzie zmiana prędkości o 4% poważnie by uszkodziła muzykę.

  • NTSC 3:2 telecine: Klatki są pokazywane na przemian przez czas 3ch albo 2ch pól. To daje częstotliwość pól 2.5 raza większą niż oryginalna częstotliwość klatek. Rezultat jest też lekko zwolniony z 60 pól na sekundę do 60000/1001 pól na sekundę by utrzymać częstotliwość pól w NTSC.

  • NTSC 2:2 pulldown: Używane do pokazywania materiałów 30fps na NTSC. Przyjemne, dokładnie jak pulldown 2:2 PAL.

Są też metody konwersji między filmami PAL i NTSC, ale ten temat wykracza poza zakres tego podręcznika. Jeśli natkniesz się na taki film, i chcesz go zakodować, to największe szanse masz odnajdując kopię w oryginalnym formacie. Konwersja między tymi dwoma formatami jest wysoce destrukcyjna i nie może zostać czysto odwrócona, więc kodowanie będzie o wiele gorszej jakości jeśli jest robione z przekonwertowanego źródła.

Gdy film jest zapisywany na DVD, kolejne pary pól są zapisywane jako klatka, pomimo tego że nie są przezaczone do wyświetlania razem. Standard MPEG-2 używany na DVD i w cyfrowej TV pozwala na zakodowanie oryginalnej progresywnej klatki i na przechowanie w nagłówku klatki ilości pól przez które ta klatka powinna być pokazana. Filmy zrobione przy użyciu tej metody są często określane mianem "miękkiego telecine" (soft-telecine), ponieważ proces ten tylko informuje odtwarzacz że ma on zastosować pulldown, a nie stosuje go samemu. Tak jest o wiele lepiej, ponieważ może to zostać łatwo odwrócone (a tak na prawdę zignorowane) przez koder i ponieważ zachowuje możliwie najwyższą jakość. Niestety, wielu producentów DVD i stacji nadawczych nie stosuje prawidłowych technik kodowania ale w zamian produkuje filmy przy użyciu "twardego telecine" (hard-telecine), gdzie pola są faktycznie powtórzone w zakodowanym MPEG-2.

Procedury radzenia sobie z takimi przypadkami będą omówione w dalszej części przewodnika. Teraz podamy tylko kilka wskazówek jak identyfikować z jakim typem materiału mamy do czynienia.

Regiony NTSC:

  • Jeśli MPlayer wyświetla w trakcie oglądania filmu że framerate zostało zmienione na 24000/1001, i nigdy nie powraca, to jest to prawie na pewno progresywny materiał na którym zastosowano "miękkie telecine".

  • Jeśli MPlayer pokazuje że framerate zmienia się między 24000/1001 i 30000/1001 i czasami widzisz "grzebienie" to jest kilka możliwości. Kawałki 24000/1001fps są prawie na pewno progresywne, poddane "miękkiemu telecine", ale fragmenty 30000/1001 fps mogą albo być 24000/1001 poddanym "twardemu telecine" albo filmem NTCS o 60000/1001 polach na sekundę. Używaj tych samych metod co w następnych dwóch przypadkach żeby je odróżnić.

  • Jeśli MPlayer nigdy nie pokazuje informacji o zmianie framerate i każda klatka z ruchem wygląda jak grzebień, to masz film NTSC z 60000/1001 polami na sekundę.

  • Jeśli MPlayer nigdy nie pokazuje informacji o zmianie framerate i dwie klatki z każdych pięciu mają grzebienie, to film jest 24000/1001 fps poddanym "twardemu telecine".

Regiony PAL:

  • Jeśli nie widzisz grzebieni, to jest to 2:2 pulldown.

  • Jeśli na przemian przez pół sekundy widzisz grzebienie a potem nie, to masz 2:2:2:2:2:2:2:2:2:2:2:3 pulldown.

  • Jeśli zawsze widzisz grzebienie w trakcie ruchu, to film jest filmem PAL wyświetlanym z 50 polami na sekundę.

Podpowiedź:

MPlayer może zwolnić odtwarzanie filmu opcją -speed albo odtwarzać klatka po klatce. Spróbuj użyć opcji -speed 0.2 żeby oglądać film bardzo wolno, albo naciskaj wielokrotnie klawisz "." żeby wyświetlać jedną klatkę na raz. Może to pomóc zidentyfikować wzorzec jeśli nie możesz go dostrzec przy pełnej prędkości.

14.1.2. Stały kwantyzator a tryb wieloprzebiegowy

Jest możliwe zakodowanie filmu z szeroką gamą jakości. Z nowoczesnymi koderami i odrobiną kompresji przed kodekiem (zmniejszenie rozdzielczości i usuwanie szumu), możliwe jest osiągnięcie bardzo dobrej jakości przy 700 MB, dla 90-110 minutowego filmu kinowego. Dodatkowo tylko najdłuższe filmy nie dają się zakodować na 1400 MB z prawie doskonałą jakością.

Są trzy podejścia do kodowania video: stały bitrate (CBR), stały kwantyzator i tryb wieloprzebiegowy (ABR, uśrednione bitrate).

Złożoność klatek filmu, a zatem i ilość bitów potrzebna na ich zakodowanie, może się bardzo mocno zmieniać w zależności od sceny. Nowoczesne kodery potrafią się dostosowywać do tych zmian i zmieniać bitrate. Jednak w prostych trybach, takich jak CBR, kodery nie znają zapotrzebowania na bitrate w przyszłych scenach, więc nie mogą na długo przekraczać wymaganego bitrate. Bardziej zaawansowane tryby, takie jak kodowanie wieloprzebiegowe, potrafią wziąć pod uwagę statystyki z poprzednich przebiegów; to naprawia wyżej wymieniony problem.

Uwaga:

Większość kodeków obsługujących kodowanie ABR obsługuje tylko kodowanie dwuprzebiegowe, podczas gdy niektóre inne, na przykład x264 albo XviD potrafią wykonywać wiele przebiegów, z lekką poprawą jakości po każdym przebiegu. Jednak ta poprawa nie jest zauważalna ani mierzalna po około 4tym przebiegu. Dlatego też, w tej części, tryb dwuprzebiegowy i wieloprzebiegowy będą używane zamiennie.

W każdym z tych trybów, kodek video (na przykład libavcodec) dzieli klatkę obrazu na makrobloki 16x16 pikseli i stosuje do każdego z nich kwantyzator. Im niższy kwantyzator, tym lepsza jakość i tym wyższe bitrate. Metody jakiej koder używa do ustalenia kwantyzatora są różne i można nimi sterować. (Jest to straszliwe uproszczenie, ale wystarcza do zrozumienia podstaw.)

Kiedy podajesz stałe bitrate, kodek koduje usuwając tyle szczegółów ile musi i tak mało jak to tylko możliwe żeby pozostać poniżej podanego bitrate. Jeśli na prawdę nie obchodzi cię wielkość pliku, możesz użyć CBR i podać nieskończone bitrate (W praktyce oznacza to bitrate na tyle wysokie że nie stanowi bariery, na przykład 10000Kbit.) Bez żadnego ograniczenia na bitrate kodek użyje najniższego możliwego kwantyzatora do każdej klatki (ustalonego dla libavcodec opcją vqmin, domyślnie 2). Gdy tylko podasz bitrate na tyle niskie że kodek musi używać wyższego kwantyzatora, to prawie na pewno niszczysz film. Żeby tego uniknąć, powinieneś pewnie zmniejszyć rozdzielczość filmu, metodą opisaną dalej. Ogólnie, jeśli troszczysz się o jakość, powinieneś unikać CBR.

Przy stałym kwantyzatorze, kodek używa na każdym makrobloku tego samego kwantyzatora, podanego opcją vqscale (w przypadku libavcodec). Jeśli chcesz możliwie najlepszy efekt, znów ignorując bitrate, możesz użyć vqscale=2. Da to ten sam bitrate i PSNR (peak signal-to-noise ratio, szczytowa proporcja sygnału do szumu) co CBR z vbitrate=nieskończoność i domyślnym vqmin.

Problemem przy stałym kwantyzatorze jest to, że używa podanego kwantyzatora niezależnie od tego czy makroblok tego wymaga czy nie. To znaczy że można by było zastosować do makrobloku wyższy kwantyzator bez utraty postrzegalnej jakości. Dlaczego marnować bity na niepotrzebnie niski kwantyzator? Mikroprocesor ma tyle cykli ile jest czasu, ale jest tylko pewna ilość bitów na twardym dysku.

Przy kodowaniu dwuprzebiegowym, pierwszy przebieg potraktuje film jak przu ustawieniu CBR, ale zachowa informacje o własnościach każdej klatki. Te dane są później używane przy drugim przebiegu do podejmowania słusznych decyzji o używanym kwantyzatorze. Przy szybkich scenach albo niewielu szczegółach pewnie użyje większego kwantyzatora, podczas gdy dla powolnych, szczegółowych scen będzie niższy kwantyzator.

Jeśli używasz vqscale=2 to marnujesz bity. Jeśli używasz vqscale=3 to nie dostajesz najlepszej możliwej jakości. Załóżmy że zakodowałeś swoje DVD przy vqscale=3 i dostałeś bitrate 1800Kbit. Jeśli zrobisz dwa przebiegi z vbitrate=1800 ostateczny wynik będzie miał wyższą jakość przy tym samym bitrate.

Ponieważ jesteś już przekonany że prawidłowym wyborem są dwa przebiegi, prawdziwym pytaniem jest jakiego bitrate użyć. Nie ma jednej odpowiedzi. Idealnie chcesz wybrać bitrate będący najbliżej równowagi między jakością a wielkością pliku. To się zmienia w zależności od filmu.

Jeśli wielkość nie ma znaczenia, dobrym punktem wyjściowym do bardzo wysokiej jakości jest około 2000Kbit plus minus 200Kbit. Jeśli jest dużo akcji albo szczegółów, albo po prostu masz bardzo wrażliwe oko, możesz się zdecydować na 2400 albo 2600. Przy niektórych DVD możesz nie zauważyć różnicy przy 1400Kbit. Dobrym pomysłem jest poeksperymentowanie z kilkoma scenami i różnymi wartościami bitrate żeby nabrać wyczucia.

Jeśli chcesz konkretnej wielkości, musisz jakoś obliczyć bitrare. Ale zanim to zrobisz, musisz wiedzieć ile miejsca potrzebujesz na dźwięk, więc powinieneś ściągnąć go najpierw. Możesz wyliczyć bitrate z następującego równania: bitrate = (wielkość_docelowa_w_MBajtach - wielkość_dźwięku_w_MB) * 1024 * 1024 / długość_w_sekundach * 8 / 1000 Na przykład by wcisność dwugodzinny film na płytkę 702MB, z 60MB ścieżki dźwiękowej, bitrate video musi być: (702 - 60) * 1024 * 1024 / (120*60) * 8 / 1000 = 740kbps

14.1.3. Constraints for efficient encoding

Due to the nature of MPEG-type compression, there are various constraints you should follow for maximal quality. MPEG splits the video up into 16x16 squares called macroblocks, each composed of 4 8x8 blocks of luma (intensity) information and two half-resolution 8x8 chroma (color) blocks (one for red-cyan axis and the other for the blue-yellow axis). Even if your movie width and height are not multiples of 16, the encoder will use enough 16x16 macroblocks to cover the whole picture area, and the extra space will go to waste. So in the interests of maximizing quality at a fixed filesize, it is a bad idea to use dimensions that are not multiples of 16.

Most DVDs also have some degree of black borders at the edges. Leaving these in place can hurt quality in several ways.

  1. MPEG-type compression is also highly dependent on frequency domain transformations, in particular the Discrete Cosine Transform (DCT), which is similar to the Fourier transform. This sort of encoding is efficient for representing patterns and smooth transitions, but it has a hard time with sharp edges. In order to encode them it must use many more bits, or else an artifact known as ringing will appear.

    The frequency transform (DCT) takes place separately on each macroblock (actually each block), so this problem only applies when the sharp edge is inside a block. If your black borders begin exactly at multiple-of-16 pixel boundaries, this is not a problem. However, the black borders on DVDs rarely come nicely aligned, so in practice you will always need to crop to avoid this penalty.

In addition to frequency domain transforms, MPEG-type compression uses motion vectors to represent the change from one frame to the next. Motion vectors naturally work much less efficiently for new content coming in from the edges of the picture, because it is not present in the previous frame. As long as the picture extends all the way to the edge of the encoded region, motion vectors have no problem with content moving out the edges of the picture. However, in the presence of black borders, there can be trouble:

  1. For each macroblock, MPEG-type compression stores a vector identifying which part of the previous frame should be copied into this macroblock as a base for predicting the next frame. Only the remaining differences need to be encoded. If a macroblock spans the edge of the picture and contains part of the black border, then motion vectors from other parts of the picture will overwrite the black border. This means that lots of bits must be spent either re-blackening the border that was overwritten, or (more likely) a motion vector will not be used at all and all the changes in this macroblock will have to be coded explicitly. Either way, encoding efficiency is greatly reduced.

    Again, this problem only applies if black borders do not line up on multiple-of-16 boundaries.

  2. Finally, suppose we have a macroblock in the interior of the picture, and an object is moving into this block from near the edge of the image. MPEG-type coding cannot say "copy the part that is inside the picture but not the black border." So the black border will get copied inside too, and lots of bits will have to be spent encoding the part of the picture that is supposed to be there.

    If the picture runs all the way to the edge of the encoded area, MPEG has special optimizations to repeatedly copy the pixels at the edge of the picture when a motion vector comes from outside the encoded area. This feature becomes useless when the movie has black borders. Unlike problems 1 and 2, aligning the borders at multiples of 16 does not help here.

  3. Despite the borders being entirely black and never changing, there is at least a minimal amount of overhead involved in having more macroblocks.

For all of these reasons, it is recommended to fully crop black borders. Further, if there is an area of noise/distortion at the edge of the picture, cropping this will improve encoding efficiency as well. Videophile purists who want to preserve the original as close as possible may object to this cropping, but unless you plan to encode at constant quantizer, the quality you gain from cropping will considerably exceed the amount of information lost at the edges.

14.1.4. Cropping and Scaling

Recall from the previous section that the final picture size you encode should be a multiple of 16 (in both width and height). This can be achieved by cropping, scaling, or a combination of both.

When cropping, there are a few guidelines that must be followed to avoid damaging your movie. The normal YUV format, 4:2:0, stores chroma (color) information subsampled, i.e. chroma is only sampled half as often in each direction as luma (intensity) information. Observe this diagram, where L indicates luma sampling points and C chroma.

LLLLLLLL
CCCC
LLLLLLLL
LLLLLLLL
CCCC
LLLLLLLL

As you can see, rows and columns of the image naturally come in pairs. Thus your crop offsets and dimensions must be even numbers. If they are not, the chroma will no longer line up correctly with the luma. In theory, it is possible to crop with odd offsets, but it requires resampling the chroma which is potentially a lossy operation and not supported by the crop filter.

Further, interlaced video is sampled as follows:

Top fieldBottom field
LLLLLLLL        
CCCC        
        LLLLLLLL
LLLLLLLL        
        CCCC
        LLLLLLLL
LLLLLLLL        
CCCC        
        LLLLLLLL
LLLLLLLL        
        CCCC
        LLLLLLLL

As you can see, the pattern does not repeat until after 4 lines. So for interlaced video, your y-offset and height for cropping must be multiples of 4.

Native DVD resolution is 720x480 for NTSC, and 720x576 for PAL, but there is an aspect flag that specifies whether it is full-screen (4:3) or wide-screen (16:9). Many (if not most) widescreen DVDs are not strictly 16:9, and will be either 1.85:1 or 2.35:1 (cinescope). This means that there will be black bands in the video that will need to be cropped out.

MPlayer provides a crop detection filter that will determine the crop rectangle (-vf cropdetect). Run MPlayer with -vf cropdetect and it will print out the crop settings to remove the borders. You should let the movie run long enough that the whole picture area is used, in order to get accurate crop values.

Then, test the values you get with MPlayer, using the command line which was printed by cropdetect, and adjust the rectangle as needed. The rectangle filter can help by allowing you to interactively position the crop rectangle over your movie. Remember to follow the above divisibility guidelines so that you do not misalign the chroma planes.

In certain cases, scaling may be undesirable. Scaling in the vertical direction is difficult with interlaced video, and if you wish to preserve the interlacing, you should usually refrain from scaling. If you will not be scaling but you still want to use multiple-of-16 dimensions, you will have to overcrop. Do not undercrop, since black borders are very bad for encoding!

Because MPEG-4 uses 16x16 macroblocks, you will want to make sure that each dimension of the video you are encoding is a multiple of 16 or else you will be degrading quality, especially at lower bitrates. You can do this by rounding the width and height of the crop rectangle down to the nearest multiple of 16. As stated earlier, when cropping, you will want to increase the Y offset by half the difference of the old and the new height so that the resulting video is taken from the center of the frame. And because of the way DVD video is sampled, make sure the offset is an even number. (In fact, as a rule, never use odd values for any parameter when you are cropping and scaling video.) If you are not comfortable throwing a few extra pixels away, you might prefer instead to scale the video instead. We will look at this in our example below. You can actually let the cropdetect filter do all of the above for you, as it has an optional round parameter that is equal to 16 by default.

Also, be careful about "half black" pixels at the edges. Make sure you crop these out too, or else you will be wasting bits there that are better spent elsewhere.

After all is said and done, you will probably end up with video whose pixels are not quite 1.85:1 or 2.35:1, but rather something close to that. You could calculate the new aspect ratio manually, but MEncoder offers an option for libavcodec called autoaspect that will do this for you. Absolutely do not scale this video up in order to square the pixels unless you like to waste your hard disk space. Scaling should be done on playback, and the player will use the aspect stored in the AVI to determine the correct resolution. Unfortunately, not all players enforce this auto-scaling information, therefore you may still want to rescale.

14.1.5. Choosing resolution and bitrate

If you will not be encoding in constant quantizer mode, you need to select a bitrate. The concept of bitrate is quite simple. It is the (average) number of bits that will be consumed to store your movie, per second. Normally bitrate is measured in kilobits (1000 bits) per second. The size of your movie on disk is the bitrate times the length of the movie in time, plus a small amount of "overhead" (see the section on the AVI container for instance). Other parameters such as scaling, cropping, etc. will not alter the file size unless you change the bitrate as well!.

Bitrate does not scale proportionally to resolution. That is to say, a 320x240 file at 200 kbit/sec will not be the same quality as the same movie at 640x480 and 800 kbit/sec! There are two reasons for this:

  1. Perceptual: You notice MPEG artifacts more if they are scaled up bigger! Artifacts appear on the scale of blocks (8x8). Your eye will not see errors in 4800 small blocks as easily as it sees errors in 1200 large blocks (assuming you will be scaling both to fullscreen).

  2. Theoretical: When you scale down an image but still use the same size (8x8) blocks for the frequency space transform, you move more data to the high frequency bands. Roughly speaking, each pixel contains more of the detail than it did before. So even though your scaled-down picture contains 1/4 the information in the spacial directions, it could still contain a large portion of the information in the frequency domain (assuming that the high frequencies were underutilized in the original 640x480 image).

Past guides have recommended choosing a bitrate and resolution based on a "bits per pixel" approach, but this is usually not valid due to the above reasons. A better estimate seems to be that bitrates scale proportional to the square root of resolution, so that 320x240 and 400 kbit/sec would be comparable to 640x480 at 800 kbit/sec. However this has not been verified with theoretical or empirical rigor. Further, given that movies vary greatly with regard to noise, detail, degree of motion, etc., it is futile to make general recommendations for bits per length-of-diagonal (the analog of bits per pixel, using the square root).

So far we have discussed the difficulty of choosing a bitrate and resolution.

14.1.5.1. Computing the resolution

First, you should compute the encoded aspect ratio: ARc = (Wc x (ARa / PRdvd )) / Hc

where:

  • Wc and Hc are the width and height of the cropped video,

  • ARa is the displayed aspect ratio, which usually is 4/3 or 16/9,

  • PRdvd is the pixel ratio of the DVD which is equal to 1.25=(720/576) for PAL DVDs and 1.5=(720/480) for NTSC DVDs,

Then, you can compute the X and Y resolution, according to a certain Compression Quality (CQ) factor: ResY = INT(SQRT( 1000*Bitrate/25/ARc/CQ )/16) * 16 and ResX = INT( ResY * ARc / 16) * 16

Okay, but what is the CQ? The CQ represents the number of bits per pixel and per frame of the encode. Roughly speaking, the greater the CQ, the less the likelihood to see encoding artifacts. However, if you have a target size for your movie (1 or 2 CDs for instance), there is a limited total number of bits that you can spend; therefore it is necessary to find a good tradeoff between compressibility and quality.

The CQ depends both on the bitrate and the movie resolution. In order to raise the CQ, typically you would downscale the movie given that the bitrate is computed in function of the target size and the length of the movie, which are constant. A CQ below 0.18 usually ends up in a very blocky picture, because there are not enough bits to code the information of each macroblock (MPEG4, like many other codecs, groups pixels by blocks of several pixels to compress the image; if there are not enough bits, the edges of those blocks are visible). It is therefore wise to take a CQ ranging from 0.20 to 0.22 for a 1 CD rip, and 0.26-0.28 for 2 CDs.

Please take note that the CQ is just an indicative figure, as depending on the encoded content, a CQ of 0.18 may look just fine for a Bergman, contrary to a movie such as The Matrix, which contains many high-motion scenes. On the other hand, it is worthless to raise CQ higher than 0.30 as you would be wasting bits without any noticeable quality gain.

14.1.6. Filtering

Learning how to use MEncoder's video filters is essential to producing good encodes. All video processing is performed through the filters -- cropping, scaling, color adjustment, noise removal, sharpening, deinterlacing, telecine, inverse telecine, and deblocking, just to name a few. Along with the vast number of supported input formats, the variety of filters available in MEncoder is one of its main advantages over other similar programs.

Filters are loaded in a chain using the -vf option:

-vf filter1=options,filter2=options,...

Most filters take several numeric options separated by colons, but the syntax for options varies from filter to filter, so read the man page for details on the filters you wish to use.

Filters operate on the video in the order they are loaded. For example, the following chain:

-vf crop=688:464:12:4,scale=640:464

will first crop the 688x464 region of the picture with upper-left corner at (12,4), and then scale the result down to 640x464.

Certain filters need to be loaded at or near the beginning of the filter chain, in order to take advantage of information from the video decoder that will be lost or invalidated by other filters. The principal examples are pp (postprocessing, only when it is performing deblock or dering operations), spp (another postprocessor to remove MPEG artifacts), pullup (inverse telecine), and softpulldown (for converting soft telecine to hard telecine).

In general, you want to do as little filtering as possible to the movie in order to remain close to the original DVD source. Cropping is often necessary (as described above), but avoid to scale the video. Although scaling down is sometimes preferred to using higher quantizers, we want to avoid both these things: remember that we decided from the start to trade bits for quality.

Also, do not adjust gamma, contrast, brightness, etc. What looks good on your display may not look good on others. These adjustments should be done on playback only.

One thing you might want to do, however, is pass the video through a very light denoise filter, such as -vf hqdn3d=2:1:2. Again, it is a matter of putting those bits to better use: why waste them encoding noise when you can just add that noise back in during playback? Increasing the parameters for hqdn3d will further improve compressibility, but if you increase the values too much, you risk degrading the image visibily. The suggested values above (2:1:2) are quite conservative; you should feel free to experiment with higher values and observe the results for yourself.

14.1.7. Interlacing and Telecine

Almost all movies are shot at 24 fps. Because NTSC is 30000/1001 fps, some processing must be done to this 24 fps video to make it run at the correct NTSC framerate. The process is called 3:2 pulldown, commonly referred to as telecine (because pulldown is often applied during the telecine process), and, naively described, it works by slowing the film down to 24000/1001 fps, and repeating every fourth frame.

No special processing, however, is done to the video for PAL DVDs, which run at 25 fps. (Technically, PAL can be telecined, called 2:2 pulldown, but this does not become an issue in practice.) The 24 fps film is simply played back at 25 fps. The result is that the movie runs slightly faster, but unless you are an alien, you probably will not notice the difference. Most PAL DVDs have pitch-corrected audio, so when they are played back at 25 fps things will sound right, even though the audio track (and hence the whole movie) has a running time that is 4% less than NTSC DVDs.

Because the video in a PAL DVD has not been altered, you need not worry much about framerate. The source is 25 fps, and your rip will be 25 fps. However, if you are ripping an NTSC DVD movie, you may need to apply inverse telecine.

For movies shot at 24 fps, the video on the NTSC DVD is either telecined 30000/1001, or else it is progressive 24000/1001 fps and intended to be telecined on-the-fly by a DVD player. On the other hand, TV series are usually only interlaced, not telecined. This is not a hard rule: some TV series are interlaced (such as Buffy the Vampire Slayer) whereas some are a mixture of progressive and interlaced (such as Angel, or 24).

It is highly recommended that you read the section on How to deal with telecine and interlacing in NTSC DVDs to learn how to handle the different possibilities.

However, if you are mostly just ripping movies, likely you are either dealing with 24 fps progressive or telecined video, in which case you can use the pullup filter -vf pullup,softskip.

14.1.8. Encoding interlaced video

If the movie you want to encode is interlaced (NTSC video or PAL video), you will need to choose whether you want to deinterlace or not. While deinterlacing will make your movie usable on progressive scan displays such a computer monitors and projectors, it comes at a cost: The fieldrate of 50 or 60000/1001 fields per second is halved to 25 or 30000/1001 frames per second, and roughly half of the information in your movie will be lost during scenes with significant motion.

Therefore, if you are encoding for high quality archival purposes, it is recommended not to deinterlace. You can always deinterlace the movie at playback time when displaying it on progressive scan devices, and future players will be able to deinterlace to full fieldrate, interpolating 50 or 60000/1001 entire frames per second from the interlaced video.

Special care must be taken when working with interlaced video:

  1. Crop height and y-offset must be multiples of 4.

  2. Any vertical scaling must be performed in interlaced mode.

  3. Postprocessing and denoising filters may not work as expected unless you take special care to operate them a field at a time, and they may damage the video if used incorrectly.

With these things in mind, here is our first example:

  mencoder capture.avi -mc 0 -oac lavc -ovc lavc -lavcopts \
  vcodec=mpeg2video:vbitrate=6000:ilme:ildct:acodec=mp2:abitrate=224

Note the ilme and ildct options.

14.1.9. Notes on Audio/Video synchronization

MEncoder's audio/video synchronization algorithms were designed with the intention of recovering files with broken sync. However, in some cases they can cause unnecessary skipping and duplication of frames, and possibly slight A/V desync, when used with proper input (of course, A/V sync issues apply only if you process or copy the audio track while transcoding the video, which is strongly encouraged). Therefore, you may have to switch to basic A/V sync with the -mc 0 option, or put this in your ~/.mplayer/mencoder config file, as long as you are only working with good sources (DVD, TV capture, high quality MPEG-4 rips, etc) and not broken ASF/RM/MOV files.

If you want to further guard against strange frame skips and duplication, you can use both -mc 0 and -noskip. This will prevent all A/V sync, and copy frames one-to-one, so you cannot use it if you will be using any filters that unpredictably add or drop frames, or if your input file has variable framerate! Therefore, using -noskip is not in general recommended.

The so-called "three-pass" audio encoding which MEncoder supports has been reported to cause A/V desync. This will definitely happen if it is used in conjunction with certain filters, therefore, it is now recommended not to use three-pass audio mode. This feature is only left for compatibility purposes and for expert users who understand when it is safe to use and when it is not. If you have never heard of three-pass mode before, forget that we even mentioned it!

There have also been reports of A/V desync when encoding from stdin with MEncoder. Do not do this! Always use a file or CD/DVD/etc device as input.

14.1.10. Audio

Audio is a much simpler problem to solve: if you care about quality, just leave it as is. Even AC3 5.1 streams are at most 448Kbit/s, and they are worth every bit. You might be tempted to transcode the audio to high quality Vorbis, but just because you do not have an A/V receiver for AC3 pass-through today does not mean you will not have one tomorrow. Future-proof your DVD rips by preserving the AC3 stream. You can keep the AC3 stream either by copying it directly into the video stream during the encoding. You can also extract the AC3 stream in order to mux it into containers such as NUT or Matroska.

mplayer source_file.vob -aid 129 -dumpaudio -dumpfile sound.ac3

will dump into the file sound.ac3 the audio track number 129 from the file source_file.vob (NB: DVD VOB files usually use a different audio numbering, which means that the VOB audio track 129 is the 2nd audio track of the file).

But sometimes you truly have no choice but to further compress the sound so that more bits can be spent on the video. Most people choose to compress audio with either MP3 or Vorbis audio codecs. While the latter is a very space-efficient codec, MP3 is better supported by hardware players, although this trend is changing.

Do not use -nosound when encoding a file with audio, even if you will be encoding and muxing audio separately later. Though it may work in ideal cases, using -nosound is likely to hide some problems in your encoding command line setting. In other words, having a soundtrack during your encode assures you that, provided you do not see messages such as „Too many audio packets in the buffer”, you will be able to get proper sync.

You need to have MEncoder process the sound. You can for example copy the orignal soundtrack during the encode with -oac copy or convert it to a "light" 4 kHz mono WAV PCM with -oac pcm -channels 1 -srate 4000. Otherwise, in some cases, it will generate a video file that will not sync with the audio. Such cases are when the number of video frames in the source file does not match up to the total length of audio frames or whenever there are discontinuities/splices where there are missing or extra audio frames. The correct way to handle this kind of problem is to insert silence or cut audio at these points. However MPlayer cannot do that, so if you demux the AC3 audio and encode it with a separate app (or dump it to PCM with MPlayer), the splices will be left incorrect and the only way to correct them is to drop/dup video frames at the splice. As long as MEncoder sees the audio when it is encoding the video, it can do this dropping/duping (which is usually OK since it takes place at full black/scenechange, but if MEncoder cannot see the audio, it will just process all frames as-is and they will not fit the final audio stream when you for example merge your audio and video track into a Matroska file.

First of all, you will have to convert the DVD sound into a WAV file that the audio codec can use as input. For example:

mplayer source_file.vob -ao pcm:file=destination_sound.wav -vc dummy -aid 1 -vo null

will dump the second audio track from the file source_file.vob into the file destination_sound.wav. You may want to normalize the sound before encoding, as DVD audio tracks are commonly recorded at low volumes. You can use the tool normalize for instance, which is available in most distributions. If you are using Windows, a tool such as BeSweet can do the same job. You will compress in either Vorbis or MP3. For example:

oggenc -q1 destination_sound.wav

will encode destination_sound.wav with the encoding quality 1, which is roughly equivalent to 80Kb/s, and is the minimum quality at which you should encode if you care about quality. Please note that MEncoder currently cannot mux Vorbis audio tracks into the output file because it only supports AVI and MPEG containers as an output, each of which may lead to audio/video playback synchronization problems with some players when the AVI file contain VBR audio streams such as Vorbis. Do not worry, this document will show you how you can do that with third party programs.

14.1.11. Muxing

Now that you have encoded your video, you will most likely want to mux it with one or more audio tracks into a movie container, such as AVI, MPEG, Matroska or NUT. MEncoder is currently only able to natively output audio and video into MPEG and AVI container formats. for example:

mencoder -oac copy -ovc copy  -o output_movie.avi -audiofile input_audio.mp2 input_video.avi

This would merge the video file input_video.avi and the audio file input_audio.mp2 into the AVI file output_movie.avi. This command works with MPEG-1 layer I, II and III (more commonly known as MP3) audio, WAV and a few other audio formats too.

MEncoder features experimental support for libavformat, which is a library from the FFmpeg project that supports muxing and demuxing a variety of containers. For example:

mencoder -oac copy -ovc copy  -o output_movie.asf -audiofile input_audio.mp2 input_video.avi -of lavf -lavfopts format=asf

This will do the same thing as the previous example, except that the output container will be ASF. Please note that this support is highly experimental (but getting better every day), and will only work if you compiled MPlayer with the support for libavformat enabled (which means that a pre-packaged binary version will not work in most cases).

14.1.11.1. Improving muxing and A/V sync reliability

You may experience some serious A/V sync problems while trying to mux your video and some audio tracks, where no matter how you adjust the audio delay, you will never get proper sync. That may happen when you use some video filters that will drop or duplicate some frames, like the inverse telecine filters. It is strongly encouraged to append the harddup video filter at the end of the filter chain to avoid this kind of problem.

Without harddup, if MEncoder wants to duplicate a frame, it relies on the muxer to put a mark on the container so that the last frame will be displayed again to maintain sync while writing no actual frame. With harddup, MEncoder will instead just push the last frame displayed again into the filter chain. This means that the encoder receives the exact same frame twice, and compresses it. This will result in a slightly bigger file, but will not cause problems when demuxing or remuxing into other container formats.

You may also have no choice but to use harddup with container formats that are not too tightly linked with MEncoder such as the ones supported through libavformat, which may not support frame duplication at the container level.

14.1.11.2. Limitations of the AVI container

Although it is the most widely-supported container format after MPEG-1, AVI also has some major drawbacks. Perhaps the most obvious is the overhead. For each chunk of the AVI file, 24 bytes are wasted on headers and index. This translates into a little over 5 MB per hour, or 1-2.5% overhead for a 700 MB movie. This may not seem like much, but it could mean the difference between being able to use 700 kbit/sec video or 714 kbit/sec, and every bit of quality counts.

In addition this gross inefficiency, AVI also has the following major limitations:

  1. Only fixed-fps content can be stored. This is particularly limiting if the original material you want to encode is mixed content, for example a mix of NTSC video and film material. Actually there are hacks that can be used to store mixed-framerate content in AVI, but they increase the (already huge) overhead fivefold or more and so are not practical.

  2. Audio in AVI files must be either constant-bitrate (CBR) or constant-framesize (i.e. all frames decode to the same number of samples). Unfortunately, the most efficient codec, Vorbis, does not meet either of these requirements. Therefore, if you plan to store your movie in AVI, you will have to use a less efficient codec such as MP3 or AC3.

Having said all that, MEncoder does not currently support variable-fps output or Vorbis encoding. Therefore, you may not see these as limitations if MEncoder is the only tool you will be using to produce your encodes. However, it is possible to use MEncoder only for video encoding, and then use external tools to encode audio and mux it into another container format.

14.1.11.3. Muxing into the Matroska container

Matroska is a free, open standard container format, aiming to offer a lot of advanced features, which older containers like AVI cannot handle. For example, Matroska supports variable bitrate audio content (VBR), variable framerates (VFR), chapters, file attachments, error detection code (EDC) and modern A/V Codecs like "Advanced Audio Coding" (AAC), "Vorbis" or "MPEG-4 AVC" (H.264), next to nothing handled by AVI.

The tools required to create Matroska files are collectively called mkvtoolnix, and are available for most Unix platforms as well as Windows. Because Matroska is an open standard you may find other tools that suit you better, but since mkvtoolnix is the most common, and is supported by the Matroska team itself, we will only cover its usage.

Probably the easiest way to get started with Matroska is to use MMG, the graphical frontend shipped with mkvtoolnix, and follow the guide to mkvmerge GUI (mmg)

You may also mux audio and video files using the command line:

mkvmerge -o output.mkv input_video.avi input_audio1.mp3 input_audio2.ac3

This would merge the video file input_video.avi and the two audio files input_audio1.mp3 and input_audio2.ac3 into the Matroska file output.mkv. Matroska, as mentioned earlier, is able to do much more than that, like multiple audio tracks (including fine-tuning of audio/video synchronization), chapters, subtitles, splitting, etc... Please refer to the documentation of those applications for more details.