国产一区二区精品-国产一区二区精品久-国产一区二区精品久久-国产一区二区精品久久91-免费毛片播放-免费毛片基地

千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站
千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻
千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

當前位置:首頁  >  技術干貨  > python亂碼背后的淵源

python亂碼背后的淵源

來源:千鋒教育
發布人:xqq
時間: 2023-11-07 07:48:20 1699314500

當源網頁編碼和爬取下來后的編碼轉換不一致時,如源網頁為gbk編碼的字節流,而我們抓取下后程序直接使用utf-8進行編碼并輸出到存儲文件中,這必然會引起亂碼,即當源網頁編碼和抓取下來后程序直接使用處理編碼一致時,則不會出現亂碼,此時再進行統一的字符編碼也就不會出現亂碼了。最終爬取的所有網頁無論何種編碼格式,都轉化為utf-8格式進行存儲。

注意:區分源網編碼A-gbk、程序直接使用的編碼B-ISO-8859-1、統一轉換字符的編碼C-utf-8。

在此,我們拓展講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區別聯系,大概如下:

最早的編碼是iso8859-1,和ascii編碼相似。但為了方便表示各種各樣的語言,逐漸出現了很多標準編碼。iso8859-1屬于單字節編碼,最多能表示的字符范圍是0-255,應用于英文系列。很明顯,iso8859-1編碼表示的字符范圍很窄,無法表示中文字符。

1981年中國人民通過對ASCII編碼的中文擴充改造,產生了GB2312編碼,可以表示6000多個常用漢字。但漢字實在是太多了,包括繁體和各種字符,于是產生了GBK編碼,它包括了GB2312中的編碼,同時擴充了很多。中國又是個多民族國家,各個民族幾乎都有自己獨立的語言系統,為了表示那些字符,繼續把GBK編碼擴充為GB18030編碼。每個國家都像中國一樣,把自己的語言編碼,于是出現了各種各樣的編碼,如果你不安裝相應的編碼,就無法解釋相應編碼想表達的內容。終于,有個叫ISO的組織看不下去了。他們一起創造了一種編碼UNICODE,這種編碼非常大,大到可以容納世界上任何一個文字和標志。所以只要電腦上有UNICODE這種編碼系統,無論是全球哪種文字,只需要保存文件的時候,保存成UNICODE編碼就可以被其他電腦正常解釋。UNICODE在網絡傳輸中,出現了兩個標準UTF-8和UTF-16,分別每次傳輸8個位和16個位。于是就會有人產生疑問,UTF-8既然能保存那么多文字、符號,為什么國內還有這么多使用GBK等編碼的人?因為UTF-8等編碼體積比較大,占電腦空間比較多,如果面向的使用人群絕大部分都是中國人,用GBK等編碼也可以。

也可以這樣來理解:字符串是由字符構成,字符在計算機硬件中通過二進制形式存儲,這種二進制形式就是編碼。如果直接使用“字符串??字符??二進制表示(編碼)”,會增加不同類型編碼之間轉換的復雜性。所以引入了一個抽象層,“字符串??字符??與存儲無關的表示??二進制表示(編碼)”,這樣,可以用一種與存儲無關的形式表示字符,不同的編碼之間轉換時可以先轉換到這個抽象層,然后再轉換為其他編碼形式。在這里,unicode就是“與存儲無關的表示”,utf—8就是“二進制表示”。

以上內容為大家介紹了python亂碼背后的淵源,希望對大家有所幫助,如果想要了解更多Python相關知識,請關注IT培訓機構:千鋒教育。http://www.kei0345678.cn/

tags: python培訓
聲明:本站稿件版權均屬千鋒教育所有,未經許可不得擅自轉載。
10年以上業內強師集結,手把手帶你蛻變精英
請您保持通訊暢通,專屬學習老師24小時內將與您1V1溝通
免費領取
今日已有369人領取成功
劉同學 138****2860 剛剛成功領取
王同學 131****2015 剛剛成功領取
張同學 133****4652 剛剛成功領取
李同學 135****8607 剛剛成功領取
楊同學 132****5667 剛剛成功領取
岳同學 134****6652 剛剛成功領取
梁同學 157****2950 剛剛成功領取
劉同學 189****1015 剛剛成功領取
張同學 155****4678 剛剛成功領取
鄒同學 139****2907 剛剛成功領取
董同學 138****2867 剛剛成功領取
周同學 136****3602 剛剛成功領取
相關推薦HOT