Logo

Kurs: Internet/Intranet Der Browser Inet-Kurs (INHALT) technische Kommunikation im Internet
Suche im Internet/Intranet

3.1Suchdienste (mit eigenem Protokoll)
  • Mit einer whois-Anfrage können Domain-Informationen erfragt werden (.com, .net, .org, .de usw.)
    - Syntax:
    /usr/bin/whois ibm.com
    oder whois -h whois.denic.de -T dn ibm.de
  • Im Verzeichnisdienst Lightweight Directory Access Protocol kann gesucht werden
    - ldap://directory.verisign.com
    - ldap://dir.ebca.de (https://www.ebca.de)
    ldapsearch -x -H ldaps://al.siemens.com:636 "(mail=max.muster@siemens.com)"
    ldapsearch -x -H ldap://dir.ebca.de:389 "(mail=max.muster@Siemens.com)
3.2Eintragung bei Suchmaschinen, META-Tags
Mit Hilfe von Webcrawlern (auch Spider, Searchbots oder WebBots genannt) füllen die Suchmaschinenbetreiber ihre Datenbanken
3.3Suche im Web (Boolesche Algebra als Vorbereitung für Recherche-Strategie)
  • Eine Metasuchmaschine leitet eine Suchanfrage an mehrere Suchmaschinen weiter und entfernt Mehrfach-Treffer
    - http://de.wikipedia.org/wiki/Metasuchmaschine (Aufbau einer Metasuchmaschine)
    - http://www.metasuchmaschine.org/ (eine Übersicht über Metasuchmaschinen)
    - http://metager.de/ (die bekannteste deutsche Metasuchmaschine)
    - https://duckduckgo.com/ (in einigen Browsern voreingestellt)
  • Boolsche Algebra als Vorbereitung für Recherche-Strategie
    _, +, &, AND als UND-Verknüpfung
    |, OR als ODER-Verknüpfung
    -, !, NOT, ~ für Ausschlusswörter
    * für beliebigen String
    "....." für exakte Übereinstimmung
    -/+filetype:pdf
    -/+site: www.Firma.de
    inanchor:Linkbeschreibung
    inurl: allinurl:.impressum.html Begriff2
    intitle: allintitle:"unix time" stamp
    intext: allintext:Begriff1 Begriff2
    cache:ImCacheBegriff
    info:Treffer-mit-Infos
    link:www.site.de
    im/nicht_im PDF-Format
    Domain-Einschränkung
    zwischen <a href=...>Text</a>
    Bestandteil einer URL
    Nur Texte im <title>-Tag
    Nur Texte im <body>-Tag
    Nur Treffer aus Googlecache
    Anzeige mit Zusatz-Infos
    Seiten, die auf diese URL verweisen
    z.B. (Maus | Ratte) & Katze) & -Hund Findet alle Dokumente, die eine Maus oder Ratte und gleichzeitig eine Katze, aber keinen Hund enthalten.
  • Suche nach E-Mail/Telefon-Adressen
    - http://www.gelbeseiten.de, http://www.dasoertliche.de
  • Hier findet man archivierte Internetseiten
    - http://www.archive.org/, http://google.de (Pfeil nach unten), http://de.search.yahoo.com (im cache), http://www.bing.com/ (Pfeil)
  • Google ...
    - entstammt einem Forschungsprojekt von 1995 an der Stanford University
    - Der Name Google ist eine Anlehnung an Googol (eine 1 mit 100 Nullen)
    - Googles Haupteinnahmequelle ist Werbung
      z.B. 0,01€/Click auf Suchwort-bezogene AdWords (eine Idee der Suchmaschine Excite) am rechten Bildschirmrand
      z.B. Google Ad-Sence mit Google-Werbelinks auf fremden Seiten (50% der Einnahmen geht an den Webseitenbetreiber)
    - siehe auch: Google#Erweiterte_Benutzung, Google Hacks

    Die Google-Architektur bietet ...
    - zahlreiche Dienste: groups, news, Produktsuche(froogle), maps, earth, scholar, video, gmail, images, usw.
    - verteilte komplette Rechenzentren die per Besucher-IP ausgewählt werden, mit max. 0,5 Sekunden Antwortzeit
    - über 1.000.000 Linux basierte Server
    - beliebig skalierbare Clusterlösung mit Standardhardware und RedHat-Linux Betriebssystem
    - Festplatten mit eigenem "Google File System"
    - Programmiert in C, C++ und Python

Meinolf Mühlenjost 2020 Der Browser Inet-Kurs (INHALT) technische Kommunikation im Internet