RegAut

Forelæsning (17. maj)

Egenskaber ved kontekstfri sprog [Martin, kap. 4.3-4.5, 6.1-6.3]

relation til regulære sprog
derivationstræer og tvetydige grammatikker
Chomsky Normal Form (gennemgået uden beviser)
"pumping"-lemmaet for kontekstfri sprog
lukkethedsegenskaber

Øvelser

[Martin]:

4.34 (s.159) - tvetydighed
4.38 (a) (s.160) - skriv utvetydige grammatikker
4.15 (s.157) - bevisteknik for grammatikker
4.27 (s.158) - regulære grammatikker
6.2 (d+e) (s.220) - anvend pumping-lemmaet for kontekstfri sprog

Ekstraopgaver:

Lad r være dette regulære udtryk: (10+123)(0+1+2+3)* Find en kontekstfri grammatik G hvor L(G)=L(r).
Betragt følgende fire CFG'er (i hver CFG er A startsymbolet, A, B og C er nonterminalsymboler, og a,b og c er terminalsymboler):
1. A a | BB
  B A
2. A  BCB | abc
  B  b
  C  a | AB
3. A AA
4. A AB |
  B c
Hvilke(n) af disse CFG'er er på Chomsky Normal Form (CNF)?

Java:

J16: RegExp-parseren bygger på følgende kontekstfri grammatik G for regulære udtryk:
```
     R -> C '+' R | C
     C -> S C | S
     S -> S '*' | P
     P -> a | b | c | ... | '(' R ')'
```
Start-nonterminalen er R. Terminalsymboler er angivet med '...', og "a | b | c | ..." indeholder hvert symbol i det anvendte alfabet, som vi antager er givet på forhånd. Vi vil ikke gennemgå selve parseren her - det hører under kurset "Oversættelse" (dOvs).
Her er en anden grammatik G':
```
     R -> R '+' R | R R | R '*' | a | b | c | ... | '(' R ')'
```
1. Er G tvetydig? Er G'? Argumentér for dine påstande.
2. Vis at L(G)=L(G'). (Hint: Vis at enhver streng, der kan deriveres af G også kan deriveres af G', og omvendt. Hver retning kan bevises ved induktion i antallet af derivationstrin.)
En fordel at bruge G i stedet for G' i RegExp-parseren er, at reglerne for hvornår parenteser må udelades er indkodet i G, så dens derivationstræer passer til strukturen af de regulære udtryk.

Ugens finurlige opgave:

I denne opgave vil vi se hvordan regulære sprog kan bruges som abstraktioner af programmer skrevet i et simpelt programmeringssprog. Fra sådanne abstraktioner kan vi analysere visse aspekter af opførslen af programmerne.

En kontekstfri grammatik for programmer

Vi betragter et simpelt imperativt programmeringssprog, hvis syntax er beskrevet af følgende kontekstfri grammatik:

	A	V \| N \| `(` A `+` A `)` \| `(`A `-` A `)` \| `(` A `*` A `)`
	B	`true` \| `false` \| `(` A `=` A `)` \| `(` A `>` A `)` \| `(` B `and` B `)` \| `(` B `or` B `)` \| `(` `not` B `)`
	S	`skip` \| V `:=` A \| `(` S `;` S `)` \| `if` B `then` S `else` S \| `while` B `do` S \| `read(` V `)` \| `print(` A `)`

V er en endelig mængde af variabelnavne, og N er en endelig mængde af heltal. (De præcise valg af disse mængder vil afhænge af de programmer, vi vil skrive.) Nonterminalen A repræsenterer aritmetiske udtryk, B repræsenterer booleske udtryk, og S repræsenterer "statements". Vi opfatter et program som en "statement", så S er start-nonterminal. Et program er således en streng, der kan deriveres af denne grammatik, startende fra S. Semantiken for programmeringssproget er som forventet. Operationen read(x) indlæser et heltal fra tastaturet og skriver det til x, mens print(A) udskriver værdien af A. Bemærk at grammatikken er utvetydig, idet der altid er parenteser om sammensamme udtryk.

Eksempel: Følgende program

  read(n);(m:=1;(while n>0 do (m:=(m*n);n:=(n-1)));print(m))

udskriver n! (=1*2*...*n), under forudsætning af, at der indtastes et positivt heltal.

Fra programmer til regulære udtryk
Givet et program s og en variabel x vil vi udtrække et regulært udtryk S_x(s) (over alfabetet ={r,w}), som viser hvordan programmet læser fra og skriver til x. En aflæsning svarer til et "r", og en tildeling svarer til et "w". Det regulære udtryk er defineret rekursivt i strukturen af s:

A_x(x) = r
A_x(V) = for Vx
A_x(N) =
A_x(( A₁ + A₂ )) = A_x(A₁)A_x(A₂)
A_x(( A₁ - A₂ )) = A_x(A₁)A_x(A₂)
A_x(( A₁ * A₂ )) = A_x(A₁)A_x(A₂)

B_x(true) =
B_x(false) =
B_x(( A₁ = A₂ )) = A_x(A₁)A_x(A₂)
B_x(( A₁ > A₂ )) = A_x(A₁)A_x(A₂)
B_x(( B₁ and B₂ )) = B_x(B₁)B_x(B₂)
B_x(( B₁ or B₂ )) = B_x(B₁)B_x(B₂)
B_x(( not B )) = B_x(B)

S_x(skip) =
S_x(x := A) = A_x(A)w
S_x(V := A) = A_x(A) for Vx
S_x(( S₁ ; S₂ )) = S_x(S₁)S_x(S₂)
S_x(if B then S₁ else S₂) = B_x(B)(S_x(S₁)+S_x(S₂))
S_x(while B do S) = B_x(B)(S_x(S)B_x(B))*
S_x(read( x )) = w
S_x(read( V )) = for Vx
S_x(print( A )) = A_x(A)

Eksempel: Hvis s er fakultetsprogrammet ovenfor, så er S_m(s)=w(rw)*r og S_n(s)=wr(rrwr)*.

Opgave 1: Hvad er S_x(x:=2;(if (x<y) then x:=(x*y) else y:=(y-1));z:=x) og S_x(if true then x:=y else y:=x) ?
Programanalyse med regulære udtryk
Visse egenskaber ved programmer kan formaliseres ved hjælp af regulære udtryk. For eksempel, L(S_x(s))L(r*) er sand hvis og kun hvis der ikke er tildelinger til x i s.

Opgave 2: Argumentér for følgende:
1. L(S_x(s))={} betyder at x ikke forekommer i s.
2. L(S_x(s))L((r+w)*w(r+w)*) betyder følgende: Vi kan være sikre på, at uanset hvad de initielle værdier af variablene er, så vil en kørsel af s på et eller andet tidspunkt skrive til x (forudsat at programmet terminerer).
3. L(S_x(s))L((r+w)*w) betyder at der er en tildeling til x i s, som ikke kan have indflydelse på de værdier, der bliver skrevet ud med print. Hvis denne tildeling er af typen x:=A, så kan den erstattes med skip uden at ændre programmets opførsel.
4. L(S_x(s)) er et endeligt sprog hvis og kun hvis x ikke forekommer inden i en while-løkke i s.
Opgave 3: Skriv et regulært udtryk r så L(S_x(s))L(r) betyder at variablen x altid er initialiseret inden der læses fra den i s. (Dvs. når x aflæses i s, så ved vi, at der inden har været en tildeling til x.)

Opgave 4: Argumentér for at der findes en algoritme, der afgør følgende: x: L(S_x(s))L(r), givet et program s og et regulært udtryk r (hvor r beskriver en eller anden interessant egenskab ved programmer).

Kombineret med løsningen i opg. 3 har vi nu en programanalyse, der kan undersøge et givet program for om der er risiko for at uinitialiserede variable bliver aflæst, hvilket er en kilde til programmeringsfejl. En lignende analyse finder sted i Java-programmer, inden de får lov at køre.

Opgave 5: Skriv et program s sådan at hvis algoritmen fra opg. 4 anvendes på s hvor r vælges som det regulære udtryk fra opg. 3, så er resultatet forkert - i den forstand at algoritmen rapporterer at en uinitialiseret variabel måske bliver aflæst når s kører, selvom dette ikke er muligt.

Den sidste opgave viser hvordan programanalyser kan være konservative. Hvis de rapporterer "nej, der er ingen problemer", så kan vi være sikre på at dette er tilfældet, men hvis de rapporterer "ja, der er et problem", så kan det være forkert. Denne situation kan desværre ikke undgås, idet vores lille programmeringssprog er Turing-komplet, hvilket betyder, at dets udtrykskraft er lige så stor som Turingmaskiners, og for sådanne maskiner er problemet "givet et program s, er det muligt at det, mens det kører, aflæser en uinitialiseret variabel?" uafgørligt, hvilket vil blive bevist på kurset Beregnelighed og logik.

Forslag til læsegruppe

Argumentér for at ethvert regulært sprog også er kontekstfrit. (Vi har set 2 forskellige beviser for dette!)

Beskriv lukkethedsegenskaber for klassen af kontekstfri sprog.

Repetér beviset for pumping-lemmaet (for kontekstfri sprog). Argumentér med udgangspunkt i tegningen af en "lang" streng, der deriveres af en CFG på CNF (slide 23).

Afleveringsopgave

Martin 6.2 (a) (s.220)

Husk at forklare grundigt hvordan du bruger pumping-lemmaet [Martin, Theorem 6.1].

Dette er sidste obligatoriske opgave. Aftal afleveringsfristen med din instruktor, så der bliver tid til feedback inden eksamen.

Regularitet & Automater - #6