Back to Question Center
0

סעמאַלט: וועב סקרייפּינג מיט שיין זופּ

1 answers:

הייַנט עס זענען פילע וועגן אַז מענטשן קענען עקסטראַקט דאַטע פון ​​פאַרשידן וועב זייַטלעך. פילע וועבסיטעס, ווי Google און פאַסעבאָאָק, האָבן אַפּיס אַז וועב סערטשערז קענען זיין געניצט פֿאַר אַלע די קאָרעוו אינפֿאָרמאַציע וואָס זיי ווילן. אָבער ניט אַלע וועב זייַטלעך זענען יקוויפּט מיט אַפּיס, ווייַל זיי זאלן נישט וועלן זייער לייענער צו זאַמלען קיין מין פון אינפֿאָרמאַציע פון ​​זיי אָדער ווייַל זיי זענען נישט יקוויפּט מיט אַוואַנסירטע טעכנאָלאָגיע. אבער וואָס קענען וועב סקראַפּס טאָן אין די מין פון קאַסעס? ווי קענען זיי עקסטראַקט דאַטן אויב עטלעכע וועב זייַטלעך טאָן ניט נוצן אַ אַפּי? דער אמת איז אַז זיי קענען אַקשלי קראַצן וועבסיטעס אין פילע וועגן.

ניצן גוגל דאָקס פֿאַר בעסער רעזולטאַטן

דורך ניצן Google דאָקס, זיי קענען אַקטשאַוואַלי באַקומען אַלע די אינפֿאָרמאַציע וואָס זיי דאַרפֿן - computer repair in sunnyvale ca. זיי קענען צולייגן עס צו כּמעט יעדער פּראָגראַממינג שפּראַך, אַזאַ ווי פּיטהאָן. פּיטהאָן איז אַ העכסט שטאַרק פּראָגראַממינג שפּראַך, וואָס איז גרינג צו נוצן און לעץ פּראָוגראַמערז פאַרבינדן זייער פּרויעקט צו די פאַקטיש וועלט. עס אַלאַוז זייַן ניצערס צו אויסדריקן פאַרשידן קאַנסעפּס אין ווייניקער שורות פון קאָד אַז אנדערע פּראָגראַממינג שפּראַכן, ווי ז'אבא.

פּיטהאָן ביבליאָטעק אַלאַוז אַ שנעל טורנינג אויף וועב סקרייפּינג פראיעקטן און עס אָפפערס פילע לייברעריז צו דורכפירן אַ זיכער אַרבעט. פֿאַר בייַשפּיל, BeautifulSoup איז אַ גרינג געצייַג פֿאַר שנעל טאַסקס, ווי פּולינג אויס פאַרשידן דאַטן, ווי רשימות, קאָנטאַקטן, טישן און מער. אַקטואַללי, בעאַוטיססאָופּ אָפפערס זייַן ניצערס עטלעכע פּשוט און עפעקטיוו מעטהאָדס צו נאַוויגירן, זוכן און מאָדיפיצירן זיכער דאַטע. פֿאַר בייַשפּיל, עס נעמט אַ HTML דאָקומענט, און עס פּאַרסיז עס, דורך שאפן אַ קאָראַספּאַנדינג סטרוקטור אין זכּרון. דערצו, עס קאַנווערץ אויטאָמאַטיש קיין ינקאַמינג דאָקומענטן צו אוניקאָד, אַזוי ניצערס טאָן ניט טראַכטן וועגן ענדינגז. (קסנומקס) (קסנומקס) (קסנומקס) פֿעיִקייטן פון שיין זופּ (קסנומקס) (קסנומקס) ניצערס קענען ינסטאַלירן דעם עפעקטיוו יקסטראַקטינג געצייַג אין ביידע ווינדאָוז און לינוקס סיסטעמס. דערנאך, זיי קענען נאַוויגירן און לערנען ווי צו נוצן די סיסטעם פשוט. זיי קענען זען אַלע נייטיק ביישפילן צו באַקומען אַ געדאַנק פון ווי זיי זענען געגאנגען צו נוצן דעם סיסטעם. די ביישפילן קענען העלפן זיי פֿאַרשטיין די סיסטעם בעסער. עס איז אַ פּראַקטיש פירער פֿאַר באַקומען בעסער וויסן ווי די סקראַטשיז פון די וועבזייטל אַנדערש.

עס מאכט פּאַרסעד דאַטן קוק ווי דער אָריגינעל דאָקומענט. אבער אין דעם פאַל אין קאַסעס אַז עס זענען עטלעכע ערראָרס אין אַ באַזונדער דאָקומענט, שיין זופּ פיגור זיי אויס און צושטעלן פֿאַר זייַן ניצערס אַ גלייַך סטרוקטור. שיין זופּ אָפפערס עטלעכע גרויס פּראָפּערטיעס, וואָס געבן HTML עלעמענטן נעמען, צו מאַכן זיי פיל סימפּלער פֿאַר די ניצערס. וועב סקרייטערז דאַרפֿן צו געדענקען, פֿאַר בייַשפּיל, אַז איין עלעמענט קענען האָבן פילע טייפּס פון קלאסן און אַ קלאַס קענען זיין צעטיילט אין עלעמענטן. יעדער פון די עלעמענטן קען האָבן בלויז איין שייַן, וואָס קענען זיין געניצט אויף אַ בלאַט נאָר אַמאָל. שיין סאָו איז אַ גרויס פּראָגראַם, וואָס איז דיזיינד בפֿרט פֿאַר פראיעקטן ווי וועב סקרייפּינג. עס גיט עטלעכע פּשוט מעטהאָדס פֿאַר זייַן ניצערס צו מאָדיפיצירן אַ פּאַרס בוים. דער שפּראַך פּראָגראַם איז דעוועלאָפּעד אויף שפּיץ פון די בעסטער פּערז פון פּיטהאָן, ווי לקסמל און עס איז גאַנץ פלעקסאַבאַל. אין פאַקט, עס געפינט פארשפארט דאַטן און זאַמלען אַלע די נייטיק אינפֿאָרמאַציע פֿאַר וועב סקרייטערז ין מינוט.

December 22, 2017