«Маскировщик» обезличивает базу — для тестирования, аналитики и моделей машинного обучения
Мы готовим инструмент для тестировщиков, дата-сайентистов и специалистов по информационной безопасности. Он обезличивает большие базы с персональными данными, чтобы их можно было использовать в тестировании, аналитике, моделях машинного обучения. Не ставя при этом под удар безопасность данных.
Скажем, дата-сайентисты делают модель — чтобы определять, какие продукты и когда предлагать клиентам. И хотят проверить ее в процессе разработки. Хорошо бы сделать это на данных настоящих клиентов из базы, чтобы учесть все особенности. Например, заполненность полей, опечатки, гендерный баланс, число недействительных паспортов. Но раскрывать персональные данные нельзя, поэтому контакты важно обезличить. Это как раз сделает «Маскировщик».
Наш продукт подбирает замены к настоящим данным случайным образом, поэтому они не поддаются обратной расшифровке. Но главное, сохраняет смысл и качество обезличенных данных — все ошибки, которые встречаются на проде:
женское имя заменит на женское, но другое. Мужское — на мужское;
если «Ивана» обезличил в «Петра», то «Ивановичей» превратит в «Петровичей», чтобы сохранить родственные связи;
дату рождения заменит на другую в рамках одного года, чтобы не разрушить социально-демографическую структуру;
телефонный номер заменит другим номером, но той же страны, города и оператора;
в адресе сохранит страну, город или даже район — как пожелаете;
действующий паспорт заменит на действующий, просроченный — на просроченный;
обезличенную фамилию поместит в поле «Имя», если такая ошибка была в исходной базе.
Так получится хорошо протестировать продукты. Прогнал базу через «Маскировщик» — и можно тестировать ту самую ML-модель или делать еще что-то полезное. Результат будет честным, будто вы проверяли плагин на «живых» контактах.
Если интересно повлиять на продукт и попробовать его в числе первых, оставьте заявку в форме. Так мы сделаем инструмент, который учтет ваши нужды.