Sezione 11.1: Codifica di sorgente Su  Capitolo 11: Teoria dell’informazione e codifica Sezione 11.3: Codici di canale 

11.2  Codifica di canale

Come già fatto osservare al § 8.4.2↑, lo scopo della codifica di canale è quello di ridurre il tasso di errore di una trasmissione numerica ricorrendo alla aggiunta di ridondanza, ossia trasmettendo più binit di quanti necessari dopo l’attuazione della codifica di sorgente, e dunque (nel caso di una trasmissione real-time) occupare più banda dello stretto necessario.
E’ quindi naturale chiedersi: fino a che punto si può arrivare, ovvero di quanto si può ridurre la Pe, e quanta ridondanza è necessario aggiungere? La risposta fornita in questa sezione è che, finché il tasso informativo R si mantiene inferiore al valore di una grandezza C denominata capacità di canale, definita ai § 11.2.3↓ e 11.2.4↓, il canale può trasportare l’informazione (teoricamente) senza errori! Mentre se al contrario R > C, non è possibile trovare nessun procedimento in grado di ridurre gli errori - che anzi, divengono praticamente certi. Infine per quanto riguarda la ridondanza che occorre aggiungere, pur senza spiegare come fare, la teoria assicura che questa può essere resa trascurabile! Ma prima di approfondire l’enunciazione di questi risultati, svolgiamo alcune riflessioni su come

11.2.1  Canale simmetrico binario e decisore Bayesiano

canale simmetrico binario
In figura è mostrato uno schema che rappresenta un canale numerico al cui ingresso si può presentare uno tra due simboli x1 e x2, con probabilità rispettiva α e 1  − α, mentre in uscita si osserva il simbolo y1 oppure y2.
Il canale è detto simmetrico perché tali sono le probabilità condizionate in avanti: la probabilità di errore
pe = p(y2  ⁄ x1) = p(y1  ⁄ x2)
e la probabilità (complementare) di non-errore
pne = 1 − pe  = p(y1 ⁄ x1) = p(y2  ⁄ x2)
Rapporto di decisione
Qualora si osservi in uscita uno dei due valori (ad es. y1), si possono confrontare le probabilità condizionate in avanti per le due possibili ipotesi che in ingresso sia presente x1 od x2, valutando il rapporto
(12.14) RDML  = (p(y1  ⁄ x1))/(p(y1  ⁄ x2))  = (pne)/(pe) ≷ 1     ->      vince  x1  oppure  x2
e quindi decidendo per l’ipotesi più verosimile in funzione del valore maggiore o minore di uno per RDML, ovvero del rapporto (p(y2  ⁄ x1))/(p(y2  ⁄ x2)) qualora fosse stato ricevuto y2. Nel caso risulti pe  < (1)/(2), questo corrisponde a scegliere l’ingresso concorde con l’uscita, ovvero l’opposto se pe  > (1)/(2).
Se disponiamo della conoscenza delle probabilità a priori p(x1) e p(x2), ed i due simboli x1 ed x2 non sono equiprobabili[455] [455] In caso contrario (ovvero x1 ed x2 sono equiprobabili) la 12.15↓ è equivalente alla 12.14↑. Nei casi in cui non si conosca la statistica di sorgente, non si può quindi fare altro che attuare una decisione di massima verosimiglianza., possiamo costruire RD utilizzando le probabilità a posteriori p(x1  ⁄ y1) e p(x2 ⁄ y1), calcolabili applicando il teorema di Bayes (vedi § 5.1.4↑). Facendo di nuovo il caso di aver ricevuto il simbolo y1, scriviamo
(12.15) RDMAP  =  (p(x1 ⁄ y1))/(p(x2  ⁄ y1)) = (p(y1 ⁄ x1)p(x1))/(p(y1))(p(y1))/(p(y1 ⁄ x2)p(x2))  =  (p(y1 ⁄ x1))/(p(y1  ⁄ x2))(p(x1))/(p(x2)) ≷ 1   ->  vince x1 oppure x2  
In questo caso RDMAP assume valori  >  o   <  di 1 correggendo la (12.14↑) in base alla conoscenza delle probabilità a priori: .
Verifica di ipotesi ML e MAP
La metodologia descritta prende il nome di verifica di ipotesi statistica (vedi § 5.6.1↑), e si basa sul confronto tra due valori di probabilità: nel caso si tratti di quelle in condizionate in avanti, la decisione (12.14↑) viene detta di massima verosimiglianza (vedi § 5.6.3↑) ovvero Maximum Likelihood, da cui il pedice ML; se invece si basa sulle probabilità condizionate all’indietro come per la (12.15↑), la decisione viene detta di massima probabilità a posteriori, e indicata come MAP.
Riflessioni
Il meccanismo con cui, nella decisione MAP, le probabilità in avanti si combinano con quelle a priori, può essere analizzato mediante alcune osservazioni: innanzi tutto, x1 potrebbe essere così raro che, in presenza di una moderata probabilità di errore, il ricevitore potrebbe preferire di decidere sempre x2, attribuendo l’eventuale ricezione di y1 dovuta più verosimilmente ad un errore del canale, piuttosto che all’effettiva trasmissione di x1. In assenza di canale poi, l’unico rapporto di decisione possibile sarebbe stato quello tra le probabilità a priori p(x1) e p(x2); la ricezione di un simbolo yi dunque ha portato un miglior livello di informazione, alterando il RV, in misura tanto maggiore quanto più minore è la probabilità di errore.
EsempioVerifichiamo i ragionamenti appena svolti riscrivendo per esteso una probabilità a posteriori:
p(x1  ⁄  y1)  =  (p(x1,  y1))/(p(y1)) = (p(y1 ⁄ x1)p(x1))/(p(y1  ⁄ x1)p(x1)  + p(y1  ⁄ x2)p(x2)) =   =  (pnep(x1))/(pnep(x1)  + pep(x2))
Se pe = pne  = (1)/(2), il canale è inservibile e non trasferisce informazione: infatti si ottiene p(x1  ⁄ y1) = p(x1) in quanto p(x1) + p(x2) = 1. D’altra parte, se pe  < pne, risulta
p(x1  ⁄ y1) = (p(x1))/(p(x1)  + (pe)/(pne)p(x2))  > p(x1)
aumentando quindi la probabilità di x1 rispetto alla sua probabilità a priori; se poi la probabilità di errore tende a zero (pe  → 0), osserviamo che p(x1 ⁄ y1) → 1.

11.2.2  Informazione mutua media per sorgenti discrete

Abbiamo discusso di come l’entropia permetta di valutare la capacità informativa di una sorgente; estendiamo ora il concetto, per mostrare come l’informazione condivisa tra ingresso ed uscita di un canale consenta di determinare anche la quantità di informazione che viene persa a causa degli errori che si sono verificati.
Consideriamo una sorgente discreta che emette simboli x appartenenti ad un alfabeto finito di cardinalità L, ossia xϵ{xi} con i  = 1, 2, ⋯, L, a cui è associata la distribuzione p(xi), ed indichiamo con yϵ{yj} (con j = 1, 2, ⋯, L) il simbolo ricevuto, in generale diverso da x, a causa di errori introdotti dal canale. Conoscendo le densità di probabilità p(xi), p(yj), e le probabilità congiunte p(xi,  yj), possiamo definire la quantità di informazione in comune tra xi e yj, denominata informazione mutua, come[456]  [456] Per ottenere (12.16↓) si ricordi che p(xi,  yj) = p(xi  ⁄ yj)p(yj)  = p(yj  ⁄ xi)p(xi)
(12.16) I(xi,  yj) = log2(p(xi, yj))/(p(xi)p(yj))  = log2(p(xi  ⁄ yj))/(p(xi)) = log2(p(yj  ⁄ xi))/(p(yj)) bit
Notiamo che
Per giungere ad una grandezza I(X,  Y) che tenga conto del comportamento del canale per qualsiasi simbolo di sorgente e ricevuto, occorre pesare i valori di I(xi,  yj) con le relative probabilità congiunte, ossia calcolarne il valore atteso rispetto a tutte le possibili coppie (xi,  yj), e quindi
(12.17) I(X, Y)  =  EX, Y{I(xi, yj)} = ijp(xi, yj)log2(p(xi ⁄ yj))/(p(xi))  =  ijp(xi,  yj)log2(p(yj ⁄ xi))/(p(yj))
ottenendo così la quantità denominata informazione mutua media, misurata in bit/simbolo, e che rappresenta (in media) quanta informazione ogni simbolo ricevuto trasporta a riguardo di quelli trasmessi. In virtù della simmetria di questa definizione, ci accorgiamo[457] [457] Infatti
ijp(xi, yj)log2(p(xi ⁄ yj))/(p(xi))  =  ijp(xi, yj)log2(1)/(p(xi))  − log2(1)/(p(xi  ⁄ yj))  =   =  ijp(xi, yj)log2(1)/(p(xi))  − ijp(xi, yj)log2(1)/(p(xi ⁄ yj))
e, saturando la sommatoria doppia del primo termine rispetto ad j, si ottiene la (12.18↓). Per la (12.18↓), il passaggio è del tutto simile.
che il suo valor medio può essere espresso nelle due forme alternative
(12.18) I(X,  Y)  =  H(X)  − H(X  ⁄ Y) (12.19)  =  H(Y)  − H(Y ⁄ X)
in cui l’entropia condizionale
(12.20) H(X ⁄ Y)  = i, jp(xi, yj)log2(1)/(p(xi  ⁄ yj))
prende il nome di equivocazione, e rappresenta la quantità media di informazione persa, rispetto all’entropia di sorgente H(X), a causa della rumorosità del canale. Nel caso in cui il canale non introduca errori, e quindi p(xi  ⁄ yj) sia pari a 1 se i  = j e zero altrimenti, è facile vedere che H(X ⁄ Y) è pari a zero, e I(X,  Y) = H(X), ossia tutta l’informazione della sorgente si trasferisce a destinazione. D’altra parte
(12.21) H(Y ⁄ X)  = i, jp(xi, yj)log2(1)/(p(yj  ⁄ xi))
prende il nome di noise entropy dato che considera il processo di rumore come se fosse un segnale informativo: infatti, sebbene si potrebbe dire che l’informazione media ricevuta è misurata dalla entropia H(Y) della sequenza di osservazione, una parte di essa H(Y  ⁄ X) è falsa, perché in realtà è introdotta dagli errori.
Esercizio:calcolare I(X,  Y) per il canale binario simmetrico. Mantenendo la notazione introdotta al § 11.2.1↑, usiamo la (12.18↑) per calcolare l’informazione mutua in funzione di p(x1)  = α e pe, e dunque iniziamo con il valutare H(Y) e H(Y  ⁄ X). Dal punto di vista dell’uscita del canale, i simboli y1,  2 costituiscono l’alfabeto di una sorgente binaria senza memoria, la cui entropia si esprime in termini di p(y1) mediante la (12.3↑), ovvero H(Y) = Hb(p(y1)), in cui
p(y1)  =  p(y1 ⁄ x1)p(x1) + p(y1  ⁄ x2)p(x2)  =   =  (1  − pe)α  + pe(1 −  α)  = pe  + α − 2αpe
e dunque H(Y) = Hb(pe  + α − 2αpe). Per quanto riguarda la noise entropy H(Y ⁄ X), sostituendo p(xi,  yj) = p(yj ⁄ xi)p(xi) nella (12.21↑) otteniamo
H(Y  ⁄ X)  = ip(xi)jp(yj  ⁄ xi)log2(1)/(p(yj ⁄ xi))  = Hb(pe)
dato che il termine tra parentesi quadre rappresenta appunto l’entropia di una sorgente binaria con simboli a probabilità pe e 1 − pe. Possiamo quindi ora scrivere l’espressione cercata
I(X,  Y)  = Hb(pe  + α −  2αpe)  − Hb(pe)
che dipende sia dalla probabilità di errore pe, sia dalla statistica dei simboli della sorgente: osserviamo che se pe≪1, il canale (quasi) non commette errori e risulta I(X, Y)Hb(α) = H(X), mentre se pe → (1)/(2) allora I(X, Y)  → 0.

11.2.3  Capacità di canale discreto

I risultati ora mostrati, pur permettendo di valutare la perdita di informazione causata dai disturbi, dipendono sia dalle probabilità in avanti p(yj  ⁄ xi) che effettivamente descrivono il comportamento del canale, sia da quelle a priori p(xi), che invece attengono unicamente alle caratteristiche della sorgente. Al contrario, vorremmo trovare una grandezza che esprima esclusivamente l’attitudine (o capacità) del canale a trasportare informazione, indipendentemente dalle caratteristiche della sorgente. Questo risultato può essere ottenuto provando a variare la statistica della sorgente in tutti i modi possibili, fino a trovare il valore
(12.22) Cs  = maxp(x)I(X,  Y) bit/simbolo
che definisce la capacità di canale come il massimo valore dell’informazione mutua media, ottenuto in corrispondenza della migliore sorgente possibile[458] [458] In definitiva, questo modo di ottenere una grandezza rappresentativa del solo canale ricorda un pò la via per la quale si è definita ad es. la potenza disponibile di un generatore (vedi § 15.1.1.3↓), al variare di tutti i possibili valori di impedenza di carico.. Il pedice s sta per simbolo, e serve a distinguere il valore ora definito da quello che esprime il massimo tasso di trasferimento dell’informazione espresso in bit/secondo, ottenibile una volta nota la frequenza fs con cui sono trasmessi i simboli, fornendo per la capacità di canale il nuovo valore[459] [459] Osserviamo l’invarianza di (12.23↓) rispetto alla modifica del numero di livelli: se M bit sono raggruppati per generare simboli ad L  = 2M livelli, come noto fs si riduce di M volte, mentre Cs aumenta della stessa quantità, dato che ogni simbolo trasporta ora M bit anziché uno.
(12.23) C = fsCs bit/secondo
L’importanza di questa quantità risiede nel teorema fondamentale per canali rumorosi[460] [460] http://it.wikipedia.org/wiki/Secondo_teorema_di_Shannon già anticipato più volte, che asserisce

Per ogni canale discreto senza memoria di capacità  C
  • esiste una tecnica di codifica che consente la trasmissione di informazione a velocità R e con probabilità di errore per simbolo pe piccola a piacere, purché risulti  R  < C;
  • se è accettabile una probabilità di errore pe, si può raggiungere (con la miglior codifica possibile) una velocità R(pe) = C1  − Hb(pe)  > C in cui Hb(pe) è l’entropia di una sorgente binaria (12.3↑);
  • per ogni valore di pe, non è possibile trasmettere informazione a velocità maggiore di R(pe)

Il teorema non suggerisce come individuare la tecnica di codifica, né fa distinzioni tra codifica di sorgente e di canale, ma indica le prestazioni limite ottenibili mediante la migliore tecnica possibile, in grado di ridurre a piacere la pe purché R < C, mettendoci al tempo stesso in guardia a non tentare operazioni impossibili. Da questo punto di vista, le prestazioni conseguibili adottando le tecniche di codifica note possono essere valutate confrontandole con quelle ideali predette dal teorema. Inoltre, dato che la capacità di canale è definita come massimo valore di I(X,  Y) per la migliore p(x), qualora la statistica dei messaggi prodotti dal codificatore di sorgente differisca da quella ottima per il canale, l’informazione mutua media risulterà ridotta, così come la massima velocità R.
Illustriamo l’applicazione di questi risultati con un paio di esempi:
Canale L  − ario non rumoroso
Consideriamo il caso mostrato alla figura seguente, che rappresenta un canale che trasporta senza errori simboli con L  = 2M livelli: in tal caso l’equivocazione H(Y ⁄ X) è nulla, e la (12.18↑) permette di scrivere I(X,  Y)  = H(X), che è massima se P(xi)  = 1L per tutti gli i, risultando così Cs  = log2L  = M bit/simbolo, e C  = fsCs  = fsM bit/secondo.
capacità per canale L−ario non rumoroso
I simboli ad L livelli sono ottenuti a partire da M bit prodotti da una codifica binaria a velocità fb, risultando fb ≥ R  = Hx in funzione della ottimalità o meno del codificatore; pertanto, risulta R  ≤ fb = fsM = C con l’uguaglianza valida nel caso in cui il codificatore riesca a rimuovere tutta la ridondanza dei messaggi della sorgente, conseguendo in tal caso il massimo trasferimento di informazione.
Al contrario, volendo realizzare una velocità R  > C, il codificatore di sorgente dovrebbe produrre codeword con lunghezze tali da violare la disuguaglianza di Kraft (12.5↑)[461] [461] Infatti, potrebbe risultare R > C solo se fb  < R, ovvero il codificatore dovrebbe produrre meno binit/secondo di quanti bit/secondo produca la sorgente, e quindi la regola del prefisso non sarebbe rispettata, causando in definitiva errori di decodifica anche in assenza di rumore!
Capacità del canale simmetrico binario
Esaminiamo l’effetto della presenza di rumore per questo caso già studiato, e per il quale abbiamo valutato che l’espressione dell’informazione mutua media risulta
I(X,  Y)  = Hb(pe  + α  − 2αpe)  − Hb(pe)
in cui Hb(pe) dipende solo dalla probabilità di errore, mentre il termine Hb(pe + α − 2αpe) dipende anche dalla statistica di sorgente, e risulta massimizzato e pari ad 1 se pe  + α − 2αpe = (1)/(2), come risulta per qualunque pe se α = (1)/(2), ossia per simboli equiprobabili. Pertanto, la capacità in questo caso è
Cs = 1 − Hb(pe)
caacità di canale simmetrico binario
ed il suo andamento è rappresentato alla figura a lato[462]  [462] Sono mostrati solo i valori per 0  ≤ pe  ≤ 0.5 dato che successivamente l’andamento di Cs si riflette in modo speculare., evidenziando che Cs≃1 bit/simbolo se pe≃0, ma che poi decade rapidamente a zero se pe  → 0.5.
Quest’ultimo esempio in particolare ci conferma l’esigenza, in presenza di un canale rumoroso, di attuare tecniche di codifica di canale in grado di ridurre la probabilità di errore, e di preferire tra queste le tecniche che vi riescono mantenendo al minimo la quantità dei bit aggiuntivi. Infatti spesso il canale impone una velocità di trasmissione, parte della quale è impiegata per trasmettere i soli binit di protezione e non l’informazione della sorgente, riducendo di fatto il tasso R effettivamente trasmesso.

11.2.4  Capacità di canale continuo

Come anticipato fin da pag. 1↑, un canale numerico è in realtà una astrazione che ingloba internamente un codificatore di linea o modem che, a partire da una sequenza numerica, produce un segnale trasmissibile su di un canale analogico, che a sua volta può essere caratterizzato da un valore di capacità, espresso nei termini dei parametri che descrivono la trasmissione analogica soggiacente.
Una situazione tipica è quella rappresentata in figura, in cui al segnale ricevuto è sommato
capacità di canale continuo
un rumore n(t) gaussiano, bianco e a media nulla, mentre il filtro di ricezione HR(f) impone una limitazione di banda 2B, in modo che la potenza di rumore in ingresso al decisore vale Pn  = σ2n  = N0B. Una tale descrizione viene indicata come canale awgn (additive white gaussian noise) limitato in banda.
Indicando ora con p(x), p(y), p(x ⁄ y), p(y ⁄ x) le densità di probabilità marginali e condizionali che descrivono un campione dei processi di ingresso x(t) ed uscita y(t), entrambi limitati in banda ±B, l’applicazione formale della (12.17↑) al caso continuo porta a scrivere l’espressione dell’informazione mutua media come
(12.24) I(X, Y)  =  − ∞pXY(x,  y)log2(pY(y ⁄ x))/(pY(y))dxdy bit/campione
che è una misura assoluta[463] [463] Per il fatto di avere una ddp di y sia a numeratore che a denominatore del logaritmo, la (12.24↑) non soffre dei problemi discussi alla nota 11.1.2.2↑ del trasferimento di informazione per campione di uscita. Il massimo valore di (12.24↑) al variare di pX(x) consente anche questa volta di definire la capacità di canale per campione Cs = maxp(x)I(X, Y); in virtù della limitazione di banda, i campioni prelevati ad una frequenza di campionamento fc  = 2B risultano indipendenti tra loro (vedi § 6.2.3↑), cosicché la capacità di canale risulta definita come
(12.25) C  = 2B⋅maxp(x){I(X, Y)} bit/secondo
Riscrivendo la (12.24↑) nella forma
(12.26) I(X, Y)  = h(Y)  − h(Y ⁄ X)
si ottiene una espressione analoga alla (12.18↑) ma i cui termini sono ora da intendersi come entropia differenziale, definita in (12.10↑). Osserviamo ora che il termine di noise entropy h(Y  ⁄ X)  =  −  ∞pXY(x,  y)log2(1)/(pY(y  ⁄ x))dxdy dipende esclusivamente dal rumore additivo, in quanto y(t) = x(t) + n(t) e quindi pY(y ⁄ x)  = pN(x + n): infatti pY(y ⁄ x) altro non è che la gaussiana del rumore, a cui si somma un valor medio fornito dal campione di x; pertanto h(Y  ⁄ X) si riduce all’entropia differenziale di un processo gaussiano, che non dipende dal valor medio, ma solo dall’andamento di pN(n); pertanto
h(Y ⁄  X)  =  − ∞pN(n)log2(1)/(pN(n))dn = (1)/(2)log2(2πeσ2n)
come risulta per l’entropia differenziale di sorgenti gaussiane (12.11↑). Quindi ora il termine della (12.26↑) che deve essere massimizzato rispetto a p(x) è solo il primo, ossia h(Y), che come sappiamo, è massimo se y(t) è gaussiano. Dato che il processo ricevuto y(t) è composto da due termini x(t) + n(t) di cui il secondo è già gaussiano, si ottiene y(t) gaussiano a condizione che anche x(t) sia gaussiano. Indicando con σ2x la potenza di quest’ultimo, ed in virtù della indipendenza statistica tra x(t) e n(t), risulta σ2y  = σ2x  + σ2n, e quindi
h(Y)  = (1)/(2)log2[2πe(σ2x  + σ2n)]
cosicché la (12.25↑) si riscrive come
C  =  2B(1)/(2)log2[2πe(σ2x + σ2n)] − (1)/(2)log2(2πeσ2n) =   =  B⋅log2(σ2x  + σ2n)/(σ2n)  = B⋅log21  + (  Px)/(Pn) bit/secondo
che è proprio il risultato tanto spesso citato, che prende il nome di legge di Shannon-Hartley[464] [464] http://en.wikipedia.org/wiki/Shannon-Hartley_theorem e che esprime la capacità di canale per un canale additivo gaussiano. Tenendo conto che Pn = σ2n  = N0B e che Px è la potenza del segnale ricevuto Ps, riscriviamo l’espressione della capacità nella sua forma più nota:
(12.27) C  =  B⋅log21  + (  Ps)/(N0B) bit/secondo
che, associata al teorema fondamentale della codifica espresso al § 11.2.3↑, stabilisce il massimo tasso informativo trasmissibile senza errori su di un canale awgn limitato in banda come R < B⋅log2(1  +   PsN0B). Discutiamo ora delle conseguenze di questo risultato.
Sistema di comunicazione ideale
Una volta noto il massimo tasso di informazione R  < C che il canale può trasportare senza errori, come fare per evitare, appunto, questi ultimi? Il metodo suggerito da Shannon, anziché introdurre ridondanza come avviene per le tecniche di codifica di canale classiche, effettua invece la trasmissione semplicemente ripartendo l’informazione in blocchi codificati mediante simboli di durata elevata. In pratica, si tratta di realizzare una sorta di trasmissione multilivello (vedi § 8.1.2.4↑) come mostrato alla figura 11.13↓
sistema di comunicazione ideale
Figura 11.13 Schema ideale di codifica di canale ad errore asintoticamente nullo
dove l’informazione generata ad una velocità R bit/secondo viene trasmessa mediante simboli emessi con periodo Ts secondi, ognuno dei quali convoglia quindi una quantità di informazione pari a M = RTs bit, e dunque occorrono L = 2M diversi simboli.
Nella dimostrazione di Shannon ogni simbolo, anziché essere rappresentato da un livello costante, è costituito da un segnale xk(t),  k = 1, 2, …, L di durata Ts, ottenuto prelevando una finestra temporale Ts da una realizzazione di processo gaussiano bianco limitato in banda. Il ricevitore possiede una copia di tali forme d’onda, e per ogni periodo di simbolo calcola l’errore quadratico εk  = (1)/(Ts)Ts0(r(t) − xk(t))2dt tra il segnale ricevuto r(t) ed ognuna delle forme d’onda associate ai simboli, decidendo per la trasmissione del simbolo la cui forma d’onda x(t) fornisce l’errore εk minimo. Mantenendo R fisso e pari al tasso informativo della sorgente, all’aumentare di Ts anche M = RTs aumenta di pari passo, mentre il numero di simboli L  = 2M aumenta esponenzialmente. Claude Shannon ha dimostrato[465] [465]  Senza pretendere di svolgere l’esatta dimostrazione, tentiamo di dare credibilità a questo risultato. Osserviamo quindi che se r(t) =  xk(t) + n(t), il valore atteso dell’errore εk si riduce a (1)/(Ts)Ts0[n(t)]2dt → σ2n, dato che essendo n(t) stazionario ergodico, le medie di insieme coincidono con le medie temporali. Viceversa, se il segnale trasmesso è xh(t) con h ≠ k, allora il relativo errore quadratico vale ε(h)k  = (1)/(Ts)Ts0(xh(t) +  n(t)  − xk(t))2dt, ed il suo valore atteso E{ε(h)k} → σ2n + 2σ2x essendo le forme d’onda dei simboli ortogonali tra loro e rispetto al rumore. I valori limite mostrati sono in realtà grandezze aleatorie, ma la loro varianza diviene sempre più piccola all’aumentare di Ts, e quindi in effetti con Ts  → ∞ risulta sempre εk  < ε(h)k, azzerando la probabilità di errore. che, per Ts  → ∞, lo schema indicato riesce effettivamente a conseguire una Pe → 0, tranne per il piccolo particolare che... occorre attendere un tempo che tende a infinito!
In realtà, uno schema di trasmissione numerica che approssima piuttosto bene questo ideale appena discusso esiste veramente, ed è quello esposto al § 14.5.1↓ e indicato come fsk ortogonale. Infatti, il grafico delle sue prestazioni a pag. 1↓ mostra come, aumentando L, lo stesso valore di (Eb)/(N0) permette di conseguire valori di Pe via via più piccoli.
Minima energia per bit
Lo stesso grafico di pag. 1↓ consente anche di verificare come allo stesso tempo il valore di (Eb)/(N0) necessario a conseguire una ben determinata Pe diviene sempre più piccolo all’aumentare di L, anche se non può ridursi a meno di un valore limite, ossia deve comunque risultare[466] [466] La (12.28↓) si ottiene considerando che se la capacità di canale per B  → ∞ fornita dalla (12.29↓) vale C = (Ps)/(N0ln2), e se deve risultare R ≤ C, allora ln2  = (  Ps)/(N0C) ≤ (Ps)/(N0R) = (Eb)/(N0).
(12.28) (Eb)/(N0) ≥ ln2 = 0, 693   ovvero (Eb)/(N0)||dB  ≥  − 1.6  dB
D’altra parte nell’fsk l’aumento di L comporta l’aumento, oltre che di Ts, anche della banda occupata per la trasmissione, e questo ci dà lo spunto per le osservazioni che seguono.
Compromesso banda-potenza e capacità massima
Il valore limite (12.28↑) trae origine da una conseguenza della (12.27↑) già fatta notare a pag. 1↑, ovvero la possibilità di risparmiare potenza aumentando l’occupazione di banda (o viceversa), dato che a ciò corrisponde un aumentodi C, che però non può oltrepassare un valore massimo. Infatti, se nella (12.27↑) si aumenta B, aumenta anche la potenza di rumore, e l’effetto finale è che per un canale con banda infinita non si ottiene una capacità infinita, bensì il valore[467] [467] La (12.29↓) si ottiene riscrivendo la (12.27↑) nella forma
C = (Ps)/(N0( Ps)/(N0B))(ln1  + ( Ps)/(N0B))/(ln2) = ( Ps)/(N0ln2)(ln(1  + λ))/(λ)
in cui ln è il logaritmo naturale in base e, e si è posto (Ps)/(N0B) = λ. Ricordando ora lo sviluppo di Maclaurin f(x) = f(0) + n  = 1(nf(x))/(xn)||x  = 0(xn)/(n!) e che (d)/(dx)lnx  = (1)/(x), il termine ln(1 + λ) può essere espanso in serie di potenze come ln(1 + λ)  = λ − (1)/(2)λ2  + (1)/(3)λ3 + ⋯; notando infine che per B → ∞ si ha λ → 0, e che limλ  → 0(ln(1 + λ))/(λ)  = 1, si giunge in definitiva al risultato (12.29↓).
(12.29) C  =  limB  → ∞B⋅log21  + ( Ps)/(N0B) =   =  (Ps)/(N0ln2)≃1.44( Ps)/(N0)
Compromesso banda-potenza e capacità massima
che individua anche il limite assoluto al massimo tasso informativo R trasmissibile. In figura è mostrato l’andamento effettivo della (12.27↑) in funzione di B, per alcuni valori di (Ps)/(N0) di esempio.
Limite inferiore per (Eb)/(N0)
Una volta assegnato il tasso informativo R  < C della sorgente e la banda B del canale, partendo dalla (12.27↑) si può ottenere[468] [468] Riscrivendo la (12.27↑) come 2(C)/(B)  − 1 = ( Ps)/(N0B), moltiplicando ambo i membri per (B)/(R), e semplificando il risultato, si ottiene (B)/(R)(2(C)/(B) − 1) = ( Ps)/(N0R). L’uguaglianza individua la circostanza limite in cui R  = C, mentre se nell’esponente di 2 a primo membro sostituiamo C con R, e R < C, il primo membro diviene più piccolo, e pertanto (B)/(R)(2(R)/(B) − 1) < ( Ps)/(N0R). Infine, notiamo che (Ps)/(N0R) = (Eb)/(N0), da cui il risultato mostrato (12.30↓). una relazione che esprime il valoredi (Eb)/(N0) necessario a conseguire una trasmissione senza errori (nel caso ideale):
(12.30) (Eb)/(N0) > (B)/(R)(2(R)/(B) − 1)
Limite inferiore per Eb/No
Compromesso banda-potenza
per un sistema ideale
e che, espressa in dB, è graficata nella figura a lato, in cui l’area grigia indica i valori di (Eb)/(N0) vietati, ossia per i quali è impossibile ottenere una trasmissione senza errori.
Notiamo innanzitutto che, mentre per (B)/(R) = 1 il sistema ideale richiede un valore di (Eb)/(N0) pari ad almeno 0 dB, questo si riduce nel caso in cui la trasmissione occupi una banda maggiore del tasso informativo R, fino a raggiungere (già per valori B >  10R) il limite (12.28↑) di -1.6 dB. D’altra parte, qualora la trasmissione impegni una banda inferiore ad R, il valore di (Eb)/(N0) necessario aumenta in modo piuttosto brusco.
Prestazioni di sistemi di comunicazione reali
La verifica dei comportamenti appena evidenziati può essere svolta confrontando le prestazioni ideali (12.30↑) con quelle ottenibili adottando le tecniche di modulazione numerica già discusse, e per le quali si riesce a ridurre la banda occupata come nel caso della trasmissione multilivello[469] [469] Vedi ad es. il caso di banda base al § 8.3.5↑ o quello del qam al § 14.3.1↓., oppure la si aumenta, come nel caso dell’fsk.
La figura 11.16↓ riporta i valori di (Eb)/(N0) vs (B)/(R) per le tecniche di modulazione numerica qam (§ 14.3.1↓) e fsk ortogonale (pag. 1↓): a partire dai rispettivi andamenti della Pe in funzione di (Eb)/(N0) ed L, si sono ricavati i valori di (Eb)/(N0) necessari ad ottenere una Pe pari a 10 − 5 per diversi valori di L, e questi sono stati riportati nel grafico assieme alla banda occupata, valutata come segue.
Prestazioni di sistemi di comunicazione reali
Figura 11.16 Prestazioni di qam ed fsk confrontate con quelle ideali
Considerando di adottare per il qam un impulso di Nyquist a banda minima, la banda occupata risulta pari a BQAM = (fb)/(log2L), e pertanto
(B)/(R)||QAM  = (1)/(log2L)
mentre come riportato a pag. 1↓, per l’fsk ortogonale si ha BFSK(fb)/(2)(L)/(log2L), e dunque
(B)/(R)||FSK  = (L)/(2log2L)
Possiamo osservare come per le due tecniche di trasmissione l’andamento dei valori di (Eb)/(N0) in funzione di (B)/(R) ricalchi abbastanza fedelmente quello ideale, a parte una perdita di efficienza, che si riduce per L crescente.
  Sezione 11.1: Codifica di sorgente Su  Capitolo 11: Teoria dell’informazione e codifica Sezione 11.3: Codici di canale 
x Logo

Trasmissione dei Segnali e Sistemi di Telecomunicazione

http://infocom.uniroma1.it/alef/libro/

Un esperimento divenuto nel tempo un riferimento culturale. Scopri come effettuare il download, ricevere gli aggiornamenti, e contribuire!