Обезличенные данные нельзя сделать полностью непригодными для идентификации пользователей – исследование Digital Russia c and c department store, dumpz fullz

«Анонимные» данные никогда не могут быть полностью анонимными, успешно обезличить информацию практически невозможно для любого набора данных — к такому выводу пришли исследователи из Католического университета Лувена в Бельгии и Имперского колледжа Лондона, пишет во вторник The Guardian.
Обезличенные данные лежат в основе в таких областях, как современные медицинские исследования, персонализированные рекомендации и технологии т.н. искусственного интеллекта. Предполагается, что в обезличенном наборе данных была удалена вся информация, позволяющая установить личность, при этом сохранилась основная полезная информация, позволяющая исследователям работать, не опасаясь вторжения в частную жизнь. Например, больница может удалить имена, адреса и даты рождения пациентов из набора медицинских карт – предполагая, что исследователи смогут использовать информацию для выявления скрытых связей для лечения болезней.
На практике данные могут быть деанонимизированы различными способами, утверждают исследователи. Например, набор рейтингов фильмов Netflix был деанонимизирован путем сравнения рейтингов с публичными оценками на веб-сайте фильма, домашние адреса нью-йоркских таксистов были раскрыты из якобы анонимного набора данных об отдельных поездках по городу.
Учёные в исследовании утверждают, что, например, набор данных с 15 демографическими атрибутами позволит идентифицировать 99,98% жителей Массачусетса (штат США). Еще проще идентифицировать людей, проживающих на меньшей территории, данные о которых включены в наборы данных штатов – например, жителей порта Харвич, штат Массачусетс, — города с населением менее 2000 человек.
Издание при этом отмечает, что брокеры данных, такие как Experian, продают якобы анонимные наборы данных, содержащие гораздо больше информации о человеке. Так, исследователям известно о продаже этой компанией фирме – разработчику ПО Alteryx набора данных, который содержал 248 параметров на семью для 120 миллионов американцев.
c and c department store dumpz fullz