Rapida la domanda, tutt’altro che banale, meno rapida e tutt’altro che semplice la risposta.
La perifrasi aspettuale (che esprime cioè, in questo caso, l’aspetto verbale dell’imminenza o della progressività dell’azione) costruita con stare + gerundio è ritenuta da molti parlanti italiani scarsamente accettabile quando stare è all’infinito. Su questo tema, mi permetto di rinviare a un mio articolo di qualche anno fa: Fabio Rossi, La perifrasi aspettuale stare + gerundio in costrutti subordinati impliciti, in Sintassi storica e sincronica dell’italiano. Subordinazione, coordinazione, giustapposizione. Atti del X Congresso della Società Internazionale di Linguistica e Filologia Italiana (Basilea, 30 giugno-3 luglio 2008), a cura di Angela Ferrari, Firenze, Cesati, 2009, vol. II, pp. 1155-1170. Aggiungo che stare all’infinito + gerundio è preferito dai parlanti (e scriventi) meridionali, rispetto a quelli settentrionali.
Non se ne trovano moltissimi esempi nella storia dell’italiano, benché oggi sia sempre più frequente. Per questi motivi, la sua perplessità è più che legittima. La perplessità non riguarda, dunque, tanto la presenza del tempo passato, quanto tre particolari:
1) la presenza di stare all’infinito. La perifrasi stare + gerundio in posizione subordinata sembra conferire un eccesso di autonomia semantica al verbo stare, ma non aggiungo qui altre specificazioni linguistiche (forse eccessivamente complesse in questa sede), che potranno peraltro essere reperite nell’articolo sopra citato, se interessa approfondire la questione.
2) La presenza di due ausiliari, o meglio un verbo modale (o servile) + una perifrasi aspettuale, cioè dovere e stare.
3) La presenza del clitico (la particella pronominale atona la), che può assumere tre diverse posizioni, in questi casi.
Dunque, nonostante certa impressione di pesantezza, tutte e quattro gli esempi da lei riportati sono corretti, in italiano. Naturalmente, il proprio gusto personale farà optare per l’una o l’altra soluzione. Io, personalmente, per evitare la pesantezza, eliminerei il primo modale sostituendolo con un avverbio: “l’uomo molto probabilmente la stava offendendo”.
Aggiungo che l’imperfetto doveva, in questi casi, non ha tanto valore temporale (passato), bensì modale epistemico (cioè indica l’eventualità o un certo grado di incertezza, di ipoteticità e simili). Insomma, è come se fosse: “molto probabilmente stava offendendola” o “la stava offendendo”.
 
Fabio Rossi