De meesten van ons kennen een URL wel, afkorting van Uniform Resource Locator, ook wel bekend als LRU, is een Uniform Resource Identifier (URI) waarvan de gerefereerde bronnen kunnen veranderen, dat wil zeggen dat het adres in de tijd naar bronnenvariabelen kan verwijzen. Ze bestaan uit een reeks tekens volgens een model en standaardformaat dat bronnen op een netwerk aanduidt, zoals internet.
URL’s waren een innovatie in de geschiedenis van internet. Ze werden voor het eerst gebruikt door Tim Berners-Lee in 1991, om auteurs van documenten in staat te stellen hyperlinks op het World Wide Web (WWW) te plaatsen. Sinds 1994 is in internetstandaarden het begrip LRU ingebed in de meer algemene URI, maar de term URL wordt nog steeds veel gebruikt.
Hoewel het in geen enkele standaard als zodanig wordt genoemd, geloven veel mensen dat de initialen LRU staan voor universele – in plaats van uniforme – resource locator. In 1990 was dit namelijk het geval, maar toen de Functional Recommendations for Internet Resource Locators (RFC 1736) en Functional Requirements for Uniform Resource Names (RFC 1737) samenkwamen, werd het bekend als de Uniform Resource Identifier (RFC 2396). De letter “U” in URL’s heeft echter altijd “uniform” betekend.
De LRU is een reeks karakters waarmee een uniek adres wordt toegewezen aan elk van de informatiebronnen die op internet beschikbaar zijn.2 Er is een unieke URL voor elke pagina van elk van de WWW-documenten, voor alle elementen van Gopher en alle Usenet-discussiegroepen, enzovoort.
De LRU van een informatiebron is het adres op internet, waardoor de webbrowser het kan vinden en op de juiste manier kan weergeven. Om deze reden combineert de URL de naam van de computer die de informatie levert, de directory waar deze zich bevindt, de naam van het bestand en het protocol dat moet worden gebruikt om de gegevens op te halen, zodat enige informatie over de genoemde factor die wordt gebruikt voor de gegevens gaan niet verloren.
Het kan worden begrepen dat een URI = URL + URN.
Algemeen formaat
Het algemene formaat van een URL is: :scheme://machine/directory/file
Andere informatie kan ook worden toegevoegd:
schema://gebruiker:wachtwoord@machine:poort/map/bestand
Bijvoorbeeld: https://www.wikipedia.org/
De gedetailleerde specificatie is te vinden in RFC 1738, getiteld Uniform Resource Locators.
URL-schema
Een URL wordt geclassificeerd op basis van zijn schema, dat in het algemeen het netwerkprotocol aangeeft dat wordt gebruikt om informatie van de geïdentificeerde bron via het netwerk op te halen. Een URL begint met de naam van het schema, gevolgd door een dubbele punt, gevolgd door een specifiek deel van het schema.
Enkele voorbeelden van URL-schema’s:
http - Hypertext Transfer Protocol (HTTP)-bronnen.
https - HTTP via Secure Sockets Layer (SSL).
ftp - Protocol voor bestandsoverdracht.
mailto - e-mailadressen.
ldap - LDAP-zoekopdrachten (Lightweight Directory Access Protocol).
bestand - bronnen die beschikbaar zijn op het lokale systeem of op een lokaal netwerk.
nieuws - Usenet-nieuwsgroepen (nieuwsgroepen).
gopher - het Gopher-protocol (verouderd).
telnet - het Telnet-protocol.
data - het schema voor het invoegen van kleine stukjes inhoud in documenten data URI-schema (Data: URL).
Sommige URL-schema’s, zoals de populaire mailto, http, ftp en file, werden samen met de algemene URL-syntaxis voor het eerst beschreven in 1994 in Request for Comments RFC 1630, een jaar later vervangen door de meer specifieke RFC 1738 en RFC 1808 .
Sommige van de in de eerste RFC gedefinieerde schema’s zijn nog steeds geldig, terwijl andere door latere normen worden besproken of verfijnd. Ondertussen is de algemene syntaxisdefinitie van URL’s opgesplitst in twee afzonderlijke regels met URI-specificaties: RFC 2396 (1998) en RFC 2732 (1999), beide nu verouderd maar er wordt nog steeds veel naar verwezen in URL-schemadefinities.
De huidige standaard is STD 66/RFC 3986 van 2005.
URL in dagelijks gebruik
Een HTTP-URL combineert in één adres de vier basisinformatie die nodig is om een bron overal op internet op te halen:
Het protocol dat wordt gebruikt om gegevens te communiceren of te verzenden.
De host (server of host) waarmee het communiceert.
De netwerkpoort op de server waarmee verbinding moet worden gemaakt.
Het pad naar de bron op de server (bijvoorbeeld de bestandsnaam).
Een typische URL kan van het type zijn:
http://es.wikipedia.org:80/wiki/Special:Search?search=train&go=Go
Waar:
- http of https is het protocol.
- url4.nl is de host.
- 80 is het netwerkpoortnummer op de server (80 is de standaardwaarde voor het HTTP-protocol, dit gedeelte kan volledig worden weggelaten).
- /pagina/Special:Zoeken is het bronpad.
- ?search=url&go=Go is de zoekstring (optioneel onderdeel).
Veel webbrowsers vereisen niet dat de gebruiker http:// invoert om naar een webpagina te gaan, omdat HTTP het meest gebruikte protocol is in webbrowsers. Omdat 80 de standaardpoort voor HTTP is, wordt deze meestal niet gespecificeerd. Meestal wordt slechts een gedeeltelijke URL ingevoerd, bijvoorbeeld: www.wikipedia.org/wiki/Train. Om naar een homepage te gaan, hoeft u alleen de hostnaam in te voeren, zoals www.url4.nl.
Aangezien het HTTP-protocol een server in staat stelt om op een verzoek te reageren door de webbrowser naar een andere URL om te leiden, staan veel servers gebruikers bovendien toe om bepaalde delen van de URL weg te laten, zoals het “www.”-gedeelte of het hekje (” #”) traceren of de bron in kwestie een map is. Deze bypasses vormen echter technisch gezien een andere URL, dus de webbrowser kan deze aanpassingen niet maken en moet erop vertrouwen dat de server reageert met een omleiding. Het is mogelijk dat een webserver (vanwege een vreemde traditie) twee verschillende pagina’s aanbiedt voor URL’s die alleen van elkaar verschillen door een “#”-teken.
Merk op dat in en.wikipedia.org/wiki/Train de hiërarchische volgorde van de vijf elementen is: