Alte Inhalte der unverlinkten Medion Website (sozusagen im Darknet noch aufzurufen ;) ) scrapen, z.B. per linux, browser, lynx, curl etc.

  • Hallo,


    Ich habe letztens einen Medion MT4 MD24 mit Intel SR440BX Mainboard, 128MB RAM und Pentium II 400MHz Katmai CPU gekauft, und hatte früher mal einen Medion MT4 MD40 mit Medion MD2000 (MSI-6813) Pentium III 667MHz Coppermine CPU als ersten selbst gekauften Computer (abgesehen vom ZX81-Bausatz 1984/85). Zuvor hatte ich Gehäuse drei Mainboards und viele Karten von einem Freund zu einem 486er zusammengestöpselt.


    Nun gibt es das Problem, dass die alten Rechner per Support-Menü nicht mehr zugänglich sind, aber per MSN-Eingabe im Support-Formular.


    Beispiel

    MEDION Service


    Jetzt würde ich gerne die Seiten per Skript abrufen um das betreffende Produkt zu ermitteln, so in etwa

    Code
    MSN;Produkt;Produkltbeschreibung;Downloads

    Ich kenne mich etwas mit Shell-Skripten, awk, sed etc. aus.


    Leider bringen wget, curl, lynx oder w3m nicht das richtige Ergebnis. Da auf der Website ja nichts verlinkt ist kommt man denke ich mit httrack etc. auch nicht weiter


    Die Website URL funktioniert einfach nach MSN, hier 10000749

    MEDION Service

    MEDION Service


    Vielleicht hat jemand Erfahrung mit Content-Scraping, oder andere Vorschläge. Alle MSN von Hand aufrufen möchte ich nicht. Ich möchte vielleicht eine Bookmarkl-Liste daraus erstellen, da von der Medionwebsite dieser Content nicht mehr verlinkt wird, aber eben auch noch nicht gelöscht ist.

    Einmal editiert, zuletzt von iarsin ()

  • Evtl. Ist https://archive.org/ die einfachere Lösung?

    386SX- 20 Mhz "Erster eigener Rechner!2" NoName Komponenten

    486DX -30 "Industrie PC" auf Steckkarte

    Super Sockel 7 Gigabyte GA-5AA 3Dfx Voodoo 3500 TV

    AMD "Geode" ebenfalls Steckkarte für Backplane

    3x IBM Netvista 8364 "ThinRetroSystem" 1-2 von denen würde ich tauschen...


    "und noch so einiges mehr... "

  • Naja, nicht wirklich einfach, wie sich gerade herausstellt.

  • Schade, das gibt so nichts. Das Problem bleibt bestehen. Ich kann so zwar alle Seiten automatisiert in archive.org sichern, dort werden sie auch richtig im firefox/chrome angezeigt, nur lynx und w3m können das nicht darstellen, weil der Content noch nicht da ist, der wird verzögert per ajax asynchron per http-request nachgeladen.

  • Das müsste ja die Seite komplett rendern. Eher headless browser. Aber keine Ahnung wie das wirklich funktioniert.

  • Das müsste ja die Seite komplett rendern. Eher headless browser. Aber keine Ahnung wie das wirklich funktioniert.

    Nicht unbedingt:


    Evtl. bekommt man alle Informationen auch ohne einen Browser bzw., JavaScript zu simulieren...


    Zumindest sieht das gut aus, schau mal den Response hier: https://www.medion.com/service…0749&type=drivers&lang=de schaut so aus, das da alle "deeplinks" URLs drin sind, wie z.B.:

    https://cdn.medion.com/cdn/download.pl?lang=de&filename=biomd2kvia.exe&id=231&type=treiber


    Mal sehen, vielleicht hacke ich morgen mal ein Python Skript zusammen...

  • Mal ein Anfang:


    Das spuckt dann folgendes aus:

  • Wenn ich es per archive.is sichere, kann ich es aufrufen und parsen. Das hilft jedoch nichts, da ich nicht wie bei archive org automatisiert ein Memento archivieren kann, wegen einer Sicherung mittels captcha.

    Code
    $ wget --no-check-certificate https://archive.is/KUCIX -O - 2>/dev/null| egrep -o "\" >.*</h[1,2]{1}" | sed -e 's/.* >//g' -e 's/<.*//g'
    PC Lifetec/ P0667/ 0101 DE*
    MSN: 1000 0749
  • Okay, Dein Skript kann da ja was ausrichten.

    archive.is hat diese Ausgabe gezeigt, bevor es das Memento anzeigte. Aber mit den URLs komme ich mit meiner Methode auch nicht weiter.

  • Also mich würden zusätzlich die beiden Zeilen zum Produkt interessieren.

  • So... Hier: Der läd nun alles runter:


    Denke mal das kann man nun weiter anpassen... oder ;)

  • Ah, okay: Ja ist JSON, da ist grep hier falsch.


    Code
    $ curl  "https://www.medion.com/serviceapi/medion-sp-oauth-resource/materialdata?msn=10000749&serialNo=undefined&country=DE&lang=de" --output - | egrep 'msn|description'
    % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
    Dload  Upload   Total   Spent    Left  Speed
    100   270  100   270    0     0    270      0  0:00:01 --:--:--  0:00:01   508
    {"returnCode":"00","msn":"10000749","description":"PC Lifetec/ P0667/ 0101 DE*","materialGroup":"200910","materialGroupDesc":"PC Celeron","serviceProc":"22","win10Dev":"false","mnspProductImageURL":"","mnspLevel1Category":"0 PC","eCOMKlasse":"DTPC","eCOMKategorie":"DT"}
  • Ja, ich meine, mit der Shell-Zeile. Danke für das Python-Skript, werde das mal probieren.

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!