UnicodeDecodeError: can't decode byte

UnicodeDecodeError:
can't decode byte

Александр Карпинский, 2019

Актуальность темы

Всегда актуальная тема
У многих поверхностные знания
1 января 2020 года — окончание поддержки Python 2.7

План на доклад

История появления Юникода и его кодировок
Работа со строками в Python
Портирование кода на Python 3
Внутреннее представление строк в языках

История появления Юникода

Однобайтовые кодировки

Для каждого языка была своя, иногда несколько
Не все на самом деле были однобайтовые

Проблемы при передаче данных:

Приложения должны знать много кодировок
Это не поможет представить символы разных алфавитов
в одном сообщении

Юникод — не кодировка!

Это таблица (база данных) символов, где каждый символ обладает строго заданной функцией и набором свойств.

Что в этой таблице

https://codepoints.net/U+0430

Несколько бесполезных фактов

Версия 1.0 вышла в октябре 1991 и содержала 7 161 символов
Изначально вместимость была 65 536 символов (16 бит)

Сейчас таблица разбита на 17 плоскостей по 65 536 символов
Максимальная вместимость — 1 114 112 символов

Версия 12.1 содержит 137 994 символов из 150 письменностей
Имеет иерархическую структуру блоков, не все выделенные символы идут подряд

Таблица это хорошо, но нам по-прежнему нужно передавать информацию

Что такое кодировка

Кодировка — это способ представить строки, состоящие из символов Юникода, в виде байтов.

Актуальные кодировки: UTF-8, UTF-16 и UTF-32.

Устаревшие: UTF-7, UCS-2, UTF-24.

Unicode Transformation Formats

Количество байт, нужных для кодирования символа:

	UTF-8	UTF-16	UTF-32
ASCII (00-007F)	1	2	4
000080-0007FF	2	2	4
000800-00FFFF	3	2	4
010000-10FFFF	4	4	4

Работа со строками в Python

Строки в Python

str в Python 3 или unicode в Python 2.

Последовательность Юникод-символов
Внутреннее представление скрыто

Строки в Python

            'Питон'[0]
            'П'
            
                ord('Питон'[0])
                1055
            
            
                'Питон' + '3'
                'Питон3'

Строки не байты

            import base64
            base64.b64encode('Python')
            TypeError: a bytes-like object is required, not 'str'

Кодировки спешат на помощь

            base64.b64encode('Python'.encode('utf-8'))
            b'UHl0aG9u'
            
                'Python'.encode('utf-8')
                b'Python'

Зачем делать лишнюю работу?!

            
                ord('Питон'[0])
                1055
            
            
                'Питон'.encode('utf-8')
                b'\xd0\x9f\xd0\xb8\xd1\x82\xd0\xbe\xd0\xbd'
            
            
                base64.b64encode('Питон'.encode('utf-8'))
                b'0J/QuNGC0L7QvQ=='

Ключ к пониманию

Все API работают только с одним типом!

`str`	`bytes`
.format() json шаблоны	base64.b64encode() socket криптография

Исключения?

base64.b64decode() — для упрощения
- Но bytes.fromhex() уже без поблажек
re — фабрика, тип зависит от аргумента
open() — фабрика, тип зависит от флага
И так далее…

Что поменялось с 2.7

Очевидные известные вещи:

Переименование типов uncode → str, str → bytes
Строковые литералы по умолчанию теперь Юникодовые

Что поменялось с 2.7

            import base64
            base64.b64encode(u'Python')
            'UHl0aG9u'
            
                base64.b64encode(u'Питон')
                UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-4: ordinal not in range(128)

Портирование кода на Python 3

Делайте универсальный код

Кажется сложнее, но есть возможность сделать откат в любой момент. Не надо поддерживать две версии кода и мержить изменения.

Чаще всего достаточно адаптировать под Python 3.

Делайте универсальный код

from __future__ import unicode_literals

Никогда не приводите к другому типу через конструктор:

                    str(b'Python')
                    "b'Python'"
                    
                        bytes('Питон', encoding='utf-8')
                        b'\xd0\x9f\xd0\xb8\xd1\x82\xd0\xbe\xd0\xbd'

Привыкайте использовать .encode() и .decode()

Делайте универсальный код

Почти всегда можно обойтись без ветвлений типа if six.PY3.

Пока нашел одно исключение:
Функция type("ClassName", …, …)
в Python 2 принимает только str,
в Python 3 принимает только str.

На что ещё обратить внимание

В Python 3 все API разделены по типам
- По крайней мере, в стандартной бибилиотеке
Нельзя писать не ASCII в байтовых литералах: b"Питон"

Элемент байтовой строки — число, а не строка:

                    >> b'Python'[0]
                    80

Внутреннее представление строк в языках

В JavaScript

Строки строго в UCS-2, прописано в стандарте.

UCS-2 это почти UTF-16, но с фиксированной шириной символа.

В UCS-2 могут быть суррогатные пары.

В CPython 2

Есть версии интерпретаторов с UCS-2 и UCS-4.
UCS-2 компактнее в два раза, но есть суррогатные пары.

Доли рынка неизвестны. Определяется в рантайме:

                import sys
                sys.maxunicode
                1114111 (0x10FFFF)

В CPython 3.3 и далее

Для приложения выглядит как UCS-4.

В зависимости от содержимого всей строки каждый символ может занимать 1, 2 или 4 байта.

PyPy 7.1

Внутреннее представление полностью переведено на UTF-8.

Большая победа для большинства строк.

Ничего не сломалось!

Тезисы

Юникод — не кодировка, а таблица символов
Думайте, с каким типом работают используемые API
Для перехода на Python 3 делайте универсальный код