Sezione 5.5: Gaussiana multidimensionale Su  Capitolo 5: Probabilità, processi, statistica Capitolo 6: Densità spettrale e filtraggio 

5.6  Elementi di statistica

La statistica si occupa dell’utilizzo numerico di osservazioni e misure, il cui esito viene pensato come il risultato di un fenomeno aleatorio, ad es. al fine di prendere delle decisioni, o inferire[164]  [164] Vedi ad es. http://it.wikipedia.org/wiki/Inferenza_statistica dai dati la plausibilità di ipotesi... Ma le cose si rendono interessanti per il fatto che
Ad esempio, la d.d.p. che produce i valori di osservazione può essere nota, a meno del valore dei suoi parametri media e varianza: compito della statistica è allora anche quello di stimare grandezze altrimenti ignote. Senza alcuna ambizione di affrontare compiutamente l’argomento, limitiamoci qui ad esporre brevemente questi particolari campi applicativi.

5.6.1  Test di verifica di ipotesi

Si tratta di stabilire se sia da ritenere valida una ipotesi H1, oppure se al contrario non si debba ritenere valida l’ipotesi alternativa H0 (o ipotesi nulla); la decisione viene presa confrontando un grandezza di osservazione ρ che rappresenta una realizzazione di v.a., con un valore-soglia (di decisione) γ: se ρ > γ si decide per H1, mentre viceversa se ρ < γ si decide per H0. Allo stesso tempo, si desidera valutare i margini probabilistici che indicano il grado di affidabilità della decisione.[165]  [165] Un modello del genere si applica tanto al caso di detezione di un bersaglio radar, che può essere presente o meno, quanto ai casi di una diagnosi medica a partire dai risultati degli esami clinici, a quello di attuare o meno un investimento finanziario a partire dall’andamento delle borse, a quello se prendere o meno l’ombrello prima di uscire di casa a partire dallo scrutare il cielo...
Sviluppiamo il ragionamento basandoci sui risultati dell’analisi svolta al § 13.3.2↓
Test di verifica di ipotesi
e riassunti dalla figura a lato, che illustra come nei due casi H0 ed H1 la v.a. ρ presenti due diverse d.d.p. condizionate; sempre in figura sono indicati i valori di Pd e Pp come probabilità (area) che ρ superi o meno la soglia γ nel caso in cui sia vera H1, e con Pfa la probabilità che ρ > γ nel caso in cui sia invece vera H0.
Pfa viene detta probabilità di falso allarme in quanto rappresenta la prob. di decidere per H1 quando è vera H0, evento detto anche errore di primo tipo o livello di significatività del test, e indicato con α. La prob. di detezione Pd (decidere correttamente per H1) è invece detta potenza del test ed indicata come 1  − β, dove β evidentemente è la probabilità di perdita Pp o errore di secondo tipo.
Conoscendo la d.d.p. p(ρ  ⁄ H0) della grandezza di osservazione quando è vera H0, si pone la soglia γ ad un valore tale che Pr(ρ  > γ ⁄ H0) = γp(ρ ⁄ H0)dρ  = αmin, tale cioè da rendere Pfa  = αmin, in genere posto pari a 0.05 (ovvero il 5%). Qualora l’osservazione di ρ̌  > γ faccia decidere per H1, spesso al risultato si aggiunge anche la probabilità ρ̌p(ρ ⁄ H0)dρ detta p-value[166] [166] Vedi ad es. http://en.wikipedia.org/wiki/P-value, che descrive quanto sia poco probabile osservare un valore di ρ che si discosti ancor più da H0 di quanto non sia avvenuto per la “nostra” osservazione ρ̌, e che perciò indica meglio di α la significatività del test, ovvero la discrepanza tra i dati osservati e l’ipotesi nulla H0. Naturalmente, per tutte le possibili osservazioni ρ  > γ risulta un p-value   < αmin.

5.6.2  Funzione di verosimiglianza

Viene definita a partire da una probabilità condizionata, qualora nella stessa espressione siano invertiti i ruoli di evento condizionato e condizionante: rimanendo nel campo della verifica di ipotesi, le d.d.p. condizionate pX(x  ⁄ H0) e pX(x  ⁄ H1), qualora valutate entrambe per lo stesso x =  (la effettiva osservazione), possono essere interpretate come il valore di verosimiglianza per le ipotesi H0 ed H1, che quindi ribaltano il ruolo da evento condizionante a variabile indipendente. Ma attenzione, una verosimiglianza non è una probabilità, in quanto pX(  ⁄ H0) + pX( ⁄ H1)  ≠ 1 ! La funzione di verosimiglianza (o likelihood) è spesso indicata con la lettera , in modo da poter scrivere (H0,  1 ⁄ ) = pX(  ⁄ H0, 1).

5.6.3  Decisione di massima verosimiglianza

Riprendendo il tema della verifica di ipotesi § 5.6.1↑, osserviamo che qualora la soglia di decisione γ non sia assegnata in base al livello di significatività Pfa  = αmin desiderato, ma in corrispondenza della intersezione tra pX(x  ⁄ H0) e pX(x  ⁄ H1), come mostrato in figura, la decisione stessa è detta di massima verosimiglianza, dato che sceglie l’ipotesi Hi per la quale la funzione di verosimiglianza (Hi ⁄ ) è massima. Ma anche in questo caso, alla decisione ottenuta per è possibile associare il relativo p-value. A volte, anziché confrontare tra di loro i valori di , se ne esegue il rapporto, decidendo quindi in base all’esito maggiore o minore di uno (vedi ad es. pag. 1↓).

5.6.4  Stima di parametro

Nel caso in cui si conosca il tipo di v.a. che caratterizza un fenomeno aleatorio in esame, ma non i suoi parametri (es. media e varianza), gli stessi valori osservati x  = (x1,  x2,  ⋯xN) possono essere usati per addivenire ad una loro stima. Indicando con θ il vero (incognito) valore di un parametro da stimare, il suo stimatore θ̂(x) dipende dalla variabilità di x e quindi è esso stesso una v.a., che può essere caratterizzata nei termini della sua d.d.p pΘ̂(θ̂), media mθ̂ e varianza σ2θ̂.
Mentre per uno specifico vettore di osservazioni x lo stimatore commette un errore ε(x)  = ^θ(x) − θ, desidereremmo che il valore atteso di tale errore fosse nullo, ovvero che E{^θ(x)} = mθ̂  = θ, nel cui caso lo stimatore è detto non polarizzato. Per quanto riguarda la varianza della stima σ2^θ  = E{(^θ(x) − mθ̂)2}, vorremmo che fosse la più piccola possibile. Uno stimatore non polarizzato e che consegue la minima varianza tra i possibili stimatori è detto efficiente ed eguaglia il limite di Cramér-Rao[167]  [167] Vedi ad es. http://it.wikipedia.org/wiki/Disuguaglianza_di_Cramér-Rao; viene inoltre detto consistente se limN → ∞Pr{^θ(x) = θ} =  1, ovvero se all’aumentare della dimensione N del campione, sicuramente ^θ(x) → θ. Infine, uno stimatore consistente è anche asintoticamente normale se all’aumentare di N la sua d.d.p. tende ad una gaussiana[168] [168] Ad esempio, il teorema centrale del limite (§ 5.2.4↑) fa si che la media campionaria ^mx  = (1)/(N)Ni  = 1xi, in quanto somma di v.a. indipendenti e identicamente distribuite, tenda ad una gaussiana per N → ∞., con valor medio θ e varianza che si riduce come 1N.
Al § seguente esaminiamo una tra le diverse tecniche[169]  [169] Vedi ad es. http://en.wikipedia.org/wiki/Point_estimation che consentono di arrivare ad una formula di stima.

5.6.5  Stima di massima verosimiglianza

In questo caso il valore stimato è quello che massimizza la funzione di verosimiglianza (§ 5.6.2↑) calcolata in corrispondenza ai dati campionari , ovvero ^θ  = argmaxθ{(θ ⁄ )}. Ad esempio, nel caso in cui i valori osservati x̌ = (x1,  x2, ⋯xN) siano ottenuti da un fenomeno aleatorio caratterizzato da una d.d.p. gaussiana con media mx e varianza σ2x (incognite), e gli esperimenti siano statisticamente indipendenti, la funzione di verosimiglianza risulta[170] [170] Vedi § 5.5.1↑ per l’espressione di una gaussiana multidimensionale.
(mx,  σ2x  ⁄ x̌) = pX(x̌ ⁄ mx,  σ2x) = Ni = 1(1)/((2πσ2x))exp − (1)/(2)(xi  − mx)/(σx)2
ma a questa espressione si preferisce il suo logaritmo naturale L  = lnℒ, che essendo monotono non altera la massimizzazione cercata:
L(mx,  σ2x|x̌) = lnℒ(mx,  σ2x|x̌) =  − (N)/(2)ln(2πσ2x)  − (1)/(2)ni  = 1(xi  − mx)/(σx)2
Per trovare le stime x e σ̂2x di massima (log)verosimiglianza, si eguagliano a zero le derivate parziali di L:
(L)/(mx)  =  (1)/(σ2x)Ni  = 1(xi − mx)  = 0 (L)/(σ2x)  =   − (N)/(2)(1)/(σ2x) + (1)/(2σ4x)Ni  = 1(xi − mx)2  = 0
ottenendo gli stimatori (o statistiche)[171]  [171] Per quanto riguarda x, imponendo i(xi  − x) = 0 si perviene facilmente al risultato, mentre per σ̂2x l’eguaglianza a zero produce (1)/(2σ̂4x)i(xi  − x)2 = (N)/(2)(1)/(σ̂2x)   →  (1)/(σ̂2x)i(xi  − x)2 = N e quindi il risultato.
x  = (1)/(N)Ni  = 1xi media  campionaria       σ̂2x  = (1)/(N)Ni  = 1(xi  − x)2   varianza  campionaria
Verifichiamo ora le loro proprietà. Per quanto riguarda x, la media campionaria risulta non polarizzata, ovvero[172] [172] Infatti E{x} = E(1)/(N)Ni  = 1xi  = (1)/(N)Ni  = 1E{xi} = (1)/(N)Nmx  = mx E{x}  = mx, mentre la sua varianza risulta[173] [173] In questo caso riscriviamo x come x  = Ni  = 1(xi)/(N), consideriamo che la varianza di una somma di v.a. i.i.d. è la somma delle varianze (vedi § 6.6.2↓), e che σ2aX  = a2σ2X: pertanto si ottiene σ2x  = Ni  = 1(σ2x)/(N2)  = (σ2x)/(N). σ2x = σ2xN: pertanto, la media campionaria è uno stimatore consistente e asintoticamente normale. In particolare, la proprietà σ2x  = σ2xN è quella che ci permette di ridurre a piacimento la variabilità della stima, ripetendo le osservazioni per un adeguato numero di volte.
Per quanto riguarda la stima di varianza σ̂2x, i calcoli per determinare il suo valore atteso mσ̂2x  = E(1)/(N)Ni  = 1(xi  − x)2 passano prima per la dimostrazione[174] [174] Occorre innanzitutto riscrivere xi  − x come xi  − mx + mx − x  = (xi − mx) − (x  − mx), in modo da ottenere (xi  − x)2  = (xi − mx)2 − 2(xi  − mx)(x  − mx) + (x − mx)2. Eseguendo ora la sommatoria su i si ottiene
i(xi − x)2  =  i(xi − mx)2 − 2(x  − mx)i(xi − mx) + i(x  − mx)2  =  i(xi − mx)2 − 2N(x  − mx)2  + N(x  − mx)2  = i(xi − mx)2 − N(x  − mx)2
in quanto i(xi − mx) = ixi  − imx  = Nx − Nmx  = N(x  − mx).
che i(xi  − x)2  = i(xi − mx)2 − N(x  − mx)2, in modo da ottenere
mσ̂2x  =  (1)/(N)Ni  = 1E{(xi − mx)2}  − (N)/(N)E{(x − mx)2}  =   =  (1)/(N)Nσ2x  − (σ2x)/(N) = σ2x(N  − 1)/(N)
dato che il primo termine corrisponde all’espressione della varianza di X, ed il secondo a quella della varianza di x, calcolata prima. Il risultato ottenuto indica come la varianza campionaria si riveli uno stimatore polarizzato. Per questo, la formula dello stimatore (di massima verosimiglianza) della varianza viene ordinariamente sostituita dalla espressione
(10.17) σ̂2x  = (1)/(N − 1)Ni  = 1(xi  − x)2
  Sezione 5.5: Gaussiana multidimensionale Su  Capitolo 5: Probabilità, processi, statistica Capitolo 6: Densità spettrale e filtraggio 
x Logo

Trasmissione dei Segnali e Sistemi di Telecomunicazione

http://infocom.uniroma1.it/alef/libro/

Un esperimento divenuto nel tempo un riferimento culturale. Scopri come effettuare il download, ricevere gli aggiornamenti, e contribuire!