| | 08.09.2021

Сведения о принадлежности редактора и рецензентов являются последними, указанными в их профилях исследования Loop, и могут не отражать их ситуацию на момент рецензирования.

  • Скачать статью
    • Скачать PDF
    • ReadCube
    • EPUB
    • XML (NLM)
    • Дополнительный

      материал
    • EndNote
    • Справочный менеджер
    • Простой текстовый файл
    • BibTex
      всего просмотров
    ПОДЕЛИСЬ

    ОРИГИНАЛЬНАЯ ИССЛЕДОВАТЕЛЬСКАЯ статья

    Прогнозирование сахарного диабета с помощью методов машинного обучения

    • 1 Школа компьютерных наук и технологий, Тяньцзиньский университет, Тяньцзинь, Китай
    • 2 Институт фундаментальных и пограничных наук, Университет электронных наук и технологий Китая, Чэнду, Китай
    • 3 Школа медицинской информации и инженерии, Юго-Западный медицинский университет, Лучжоу, Китай
    • 4 Школа информационных наук и технологий, Сямэньский университет, Сямэнь, Китай
    • 5 Кафедра патофизиологии, Школа базовой медицины, Юго-Западный медицинский университет, Лучжоу, Китай

    Сахарный диабет - хроническое заболевание, характеризующееся гипергликемией. Это может вызвать множество осложнений. Согласно растущей заболеваемости в последние годы, к 2040 году число больных диабетом в мире достигнет 642 миллионов, что означает, что в будущем один из десяти взрослых будет страдать диабетом. Нет сомнений в том, что эта тревожная цифра требует пристального внимания. С быстрым развитием машинного обучения машинное обучение стало применяться ко многим аспектам медицинского здоровья. В этом исследовании мы использовали дерево решений, случайный лес и нейронную сеть для прогнозирования сахарного диабета. Набор данных - это данные медицинского осмотра в больнице в Лучжоу, Китай. Он содержит 14 атрибутов. В этом исследовании для изучения моделей использовалась пятикратная перекрестная проверка. Чтобы убедиться в универсальной применимости методов,мы выбрали несколько методов, которые имеют лучшую производительность, для проведения независимых тестовых экспериментов. Мы случайным образом выбрали данные 68994 здоровых людей и пациентов с диабетом, соответственно, в качестве обучающей выборки. Из-за несбалансированности данных мы случайным образом извлекали данные 5 раз. И результат - это среднее значение этих пяти экспериментов. В этом исследовании мы использовали анализ главных компонентов (PCA) и максимальную релевантность минимальной избыточности (mRMR) для уменьшения размерности. Результаты показали, что предсказание со случайным лесом может достигать наивысшей точности (ACC = 0,8084), когда используются все атрибуты.И результат - это среднее значение этих пяти экспериментов. В этом исследовании мы использовали анализ главных компонентов (PCA) и максимальную релевантность минимальной избыточности (mRMR) для уменьшения размерности. Результаты показали, что прогнозирование со случайным лесом может достигать наивысшей точности (ACC = 0,8084), когда используются все атрибуты.И результат - это среднее значение этих пяти экспериментов. В этом исследовании мы использовали анализ главных компонентов (PCA) и максимальную релевантность минимальной избыточности (mRMR) для уменьшения размерности. Результаты показали, что предсказание со случайным лесом может достигать наивысшей точности (ACC = 0,8084), когда используются все атрибуты.

    Вступление

    Диабет - распространенное хроническое заболевание, представляющее большую угрозу для здоровья человека. Характерной чертой диабета является то, что уровень глюкозы в крови выше нормального, что вызвано нарушенной секрецией инсулина или его нарушенными биологическими эффектами, или и тем, и другим (Lonappan et al., 2007). Диабет может приводить к хроническим повреждениям и дисфункции различных тканей, особенно глаз, почек, сердца, кровеносных сосудов и нервов (Krasteva et al., 2011). Диабет можно разделить на две категории: диабет 1 типа (T1D) и диабет 2 типа (T2D). Пациенты с диабетом 1 типа обычно моложе, в основном моложе 30 лет. Типичными клиническими симптомами являются повышенная жажда и частое мочеиспускание, высокий уровень глюкозы в крови (Iancu et al., 2008).Этот тип диабета нельзя эффективно вылечить только пероральными препаратами, и пациентам требуется инсулинотерапия. Диабет 2 типа чаще встречается у людей среднего и пожилого возраста, что часто связано с возникновением ожирения, гипертонии, дислипидемии, артериосклероза и других заболеваний (Robertson et al., 2011).

    С повышением уровня жизни диабет становится все более распространенным явлением в повседневной жизни людей. Таким образом, как быстро и точно диагностировать и анализировать диабет - тема, достойная изучения. В медицине диагноз диабета ставится на основании уровня глюкозы в крови натощак, толерантности к глюкозе и случайных уровней глюкозы в крови (Iancu et al., 2008; Cox and Edelman, 2009; American Diabetes Association, 2012). Чем раньше будет поставлен диагноз, тем легче мы сможем его контролировать. Машинное обучение может помочь людям сделать предварительное суждение о сахарном диабете на основании данных их ежедневного медицинского осмотра и может служить справочным материалом для врачей (Lee and Kim, 2016; Alhamdi et al., 2017; Kavakiotis et al., 2017) . Для метода машинного обучения наиболее важными проблемами являются выбор действительных функций и правильный классификатор.

    В последнее время для прогнозирования диабета используются многочисленные алгоритмы, в том числе традиционный метод машинного обучения (Kavakiotis et al., 2017), такой как машина опорных векторов (SVM), дерево решений (DT), логистическая регрессия и так далее. Полат и Гюнес (2007) отличили диабет от нормальных людей с помощью анализа главных компонентов (PCA) и нейро-нечеткого вывода. Юэ и др. (2008) использовали алгоритм оптимизации роя квантовых частиц (QPSO) и взвешенную векторную машину поддержки наименьших квадратов (WLS-SVM) для прогнозирования диабета 2 типа. Duygu и Esin (2011) предложили систему для прогнозирования диабета, названную LDA-MWSVM. В этой системе авторы использовали линейный дискриминантный анализ (LDA) для уменьшения размеров и извлечения функций. Чтобы иметь дело с многомерными наборами данных, Разавиан и др.(2015) построили модели прогнозирования на основе логистической регрессии для различных случаев прогнозирования диабета 2 типа. Георга и др. (2013) сосредоточились на глюкозе и использовали опорную векторную регрессию (SVR) для прогнозирования диабета, который является проблемой многомерной регрессии. Более того, все больше и больше исследований используют ансамблевые методы для повышения точности (Kavakiotis et al., 2017). Озцифт и Гултен (2011) предложили новый ансамблевой подход, а именно ротационный лес, который объединяет 30 методов машинного обучения. Han et al. (2015) предложили метод машинного обучения, который изменил правила предсказания SVM.все больше и больше исследований использовали ансамблевые методы для повышения точности (Kavakiotis et al., 2017). Озцифт и Гултен (2011) предложили новый ансамблевой подход, а именно ротационный лес, который объединяет 30 методов машинного обучения. Han et al. (2015) предложили метод машинного обучения, который изменил правила предсказания SVM.все больше и больше исследований использовали ансамблевые методы для повышения точности (Kavakiotis et al., 2017). Озцифт и Гултен (2011) предложили новый ансамблевой подход, а именно ротационный лес, который объединяет 30 методов машинного обучения. Han et al. (2015) предложили метод машинного обучения, который изменил правила предсказания SVM.

    Методы машинного обучения широко используются для прогнозирования диабета и дают предпочтительные результаты. Дерево решений - один из популярных методов машинного обучения в медицине, обладающий хорошей классификационной способностью. Случайный лес порождает множество деревьев решений. Нейронная сеть - это недавно популярный метод машинного обучения, который по многим аспектам работает лучше. Итак, в этом исследовании мы использовали дерево решений, случайный лес (RF) и нейронную сеть для прогнозирования диабета.

    Материалы и методы

    Набор данных был получен на основе данных медицинского осмотра в больнице в Лучжоу, Китай. Этот набор данных разделен на две части: здоровые люди и диабет. Есть данные медицинского осмотра двух здоровых людей. В качестве обучающей выборки мы использовали один из данных физикального обследования здоровых людей, содержащий 164431 экземпляр. В другом наборе данных было случайным образом выбрано 13700 образцов в качестве независимого набора для испытаний. Физические данные включают 14 показателей физического осмотра: возраст, частоту пульса, дыхание, левое систолическое давление (LSP), правое систолическое давление (RSP), левое диастолическое давление (LDP), правое диастолическое давление (RDP), рост, вес, индекс телосложения. , глюкоза натощак, линия талии, липопротеины низкой плотности (ЛПНП) и липопротеины высокой плотности (ЛПВП). В наборе обучающих данных много недостающих данных.Мы удалили ненормальные и отсутствующие образцы, чтобы уменьшить влияние обработки данных на результат. Следовательно, мы получили 151598 физических данных о диабете и 69082 здоровых людей. Итак, мы случайным образом выбрали данные 68994 здоровых людей и пациентов с диабетом, соответственно, в качестве обучающей выборки. Из-за несбалансированности данных мы произвольно извлекали 5 раз. Конечным результатом было среднее значение 5 экспериментов. Данные физикального обследования 13 700 пациентов, которые были случайным образом выбраны в качестве независимого набора тестов, отличались от предыдущих пяти наборов, которые использовались в качестве обучающего набора.мы произвольно извлекли 5 раз. Конечным результатом было среднее значение 5 экспериментов. Данные физикального обследования 13 700 пациентов, которые были случайным образом выбраны в качестве независимого набора тестов, отличались от предыдущих пяти наборов, которые использовались в качестве обучающего набора.мы произвольно извлекли 5 раз. Конечным результатом было среднее значение 5 экспериментов. Данные физикального обследования 13 700 пациентов, которые были случайным образом выбраны в качестве независимого набора тестов, отличались от предыдущих пяти наборов, которые использовались в качестве обучающего набора.

    Другой набор данных - это данные о диабете у индейцев пима (Jegan, 2014). В частности, все пациенты - женщины старше 21 года, принадлежащие к индейцам пима. Набор данных содержит 8 атрибутов, которые включают время беременности, концентрацию глюкозы в плазме после 2-часового перорального теста на толерантность к глюкозе, диастолическое артериальное давление, толщину трехглавой кожной складки, 2-часовой сывороточный инсулин, индекс массы тела, родословную диабета и возраст. В этом наборе данных исходные данные о 786 диабетиках сокращаются до 392 после удаления отсутствующих данных.

    Классификация

    В этом разделе мы использовали дерево решений, RF и нейронную сеть в качестве классификаторов. Дерево решений и RF могут быть реализованы в WEKA, бесплатном, некоммерческом программном обеспечении для машинного обучения и интеллектуального анализа данных с открытым исходным кодом, основанном на среде JAVA. Нейронная сеть может быть реализована в MATLAB, коммерческом математическом программном обеспечении, используемом MathWorks, Inc. Оно используется для алгоритмической разработки, визуализации данных, анализа данных и предоставляет расширенный вычислительный язык и интерактивную среду для численных расчетов.

    Древо решений

    Дерево решений - это базовый метод классификации и регрессии. Модель дерева решений имеет древовидную структуру, которая может описывать процесс экземпляров классификации на основе признаков (Quinlan, 1986). Его можно рассматривать как набор правил «если-то», которые также можно рассматривать как условные распределения вероятностей, определенные в пространстве признаков и пространстве классов.

    Дерево решений использует древовидную структуру, и дерево начинается с одного узла, представляющего обучающие образцы (Friedl and Brodley, 1997; Habibi et al., 2015; Liao et al., 2018). Если все образцы относятся к одному классу, узел становится листом, и класс отмечает его. В противном случае алгоритм выбирает дискриминирующий атрибут в качестве текущего узла дерева решений. В соответствии со значением атрибута текущего узла решения обучающие выборки делятся на подмножества сервалов, каждое из которых формирует ветвь, и есть значения сервалов, которые образуют ветви сервалов (Quinlan, 1986; Kohabi, 1996). Для каждого подмножества или ветви, полученной на предыдущем шаге, предыдущие шаги повторяются, рекурсивно формируя дерево решений для каждой из секционированных выборок (Quinlan, 1986; Friedl and Brodley, 1997; Habibi et al., 2015).

    Типичными алгоритмами дерева решений являются ID3, C4.5, CART и так далее. В этом исследовании мы использовали дерево решений J48 в WEKA. J48 другое название - C4.8, это обновление C4.5. J48 (Salzberg, 1994; Kohabi, 1996) - это восходящая рекурсивная стратегия «разделяй и властвуй». Этот метод выбирает атрибут в качестве корневого узла, генерирует ветвь для каждого возможного значения атрибута, делит экземпляр на несколько подмножеств, и каждое подмножество соответствует ветви корневого узла, а затем повторяет процесс рекурсивно для каждой ветви (Кохаби, 1996). Когда все экземпляры имеют одинаковую классификацию, алгоритм останавливается. В J48 узлы определяются по получению информации. В соответствии со следующими формулами на каждой итерации J48 вычисляет информационный прирост каждого атрибута,и выбирает атрибут с наибольшим значением получения информации в качестве узла этой итерации (Quinlan, 1996a, b; Sharma et al., 2014).

    Атрибут Aполучение информации:

    Энтропия информации до сегментации:

    Распределенная информационная энтропия:

    Случайный лес

    RF - это классификация с использованием множества деревьев решений. Этот алгоритм предложен Брейманом (Breiman, 2001). RF - это многофункциональный метод машинного обучения. Он может выполнять задачи прогнозирования и регрессии. Кроме того, RF основан на Bagging и играет важную роль в ансамблевом машинном обучении (Breiman, 2001; Lin et al., 2014; Svetnik et al., 2015). РФ использовался в нескольких биомедицинских исследованиях (Zhao et al., 2014; Liao et al., 2016).

    RF генерирует множество деревьев решений, что сильно отличается от алгоритма дерева решений (Pal, 2005). Когда РФ предсказывает новый объект на основе некоторых атрибутов, каждое дерево в РФ даст свой собственный результат классификации и «голосование», и тогда общий результат леса будет самым большим числом таксономий. В задаче регрессии выход RF - это среднее значение выхода всех деревьев решений (Liaw and Wiener, 2002; Svetnik et al., 2015).

    Нейронная сеть

    Нейронная сеть - это математическая модель, которая имитирует поведение нейронной сети животного. Эта модель зависит от сложности системы для достижения цели обработки информации путем настройки отношений между внутренними узлами (Mukai et al., 2012). По стилю соединений модель нейронной сети можно разделить на прямую сеть и сеть обратной связи. В этой статье мы использовали приложение Neural Pattern Recognition в MATLAB, которое представляет собой двухуровневую сеть с обратной связью со скрытыми сигмовидными и выходными нейронами softmax. Структура нейронной сети представлена ​​на (Рисунок 1).

    РИСУНОК 1.Структура двухуровневой сети обратной связи в MATLAB. Этот рисунок взят из MATLAB, который предпочтительно может описать этот принцип работы сети. Где W- это вес, а b- переменная смещения.

    В нейронной сети есть несколько важных частей, а именно входной слой, скрытый слой и выходной слой. Входной уровень отвечает за прием входных данных. Мы можем получить результаты из выходного слоя. Слой между входным и выходным слоями называется скрытым слоем. Потому что снаружи они незаметны. Между нейронами одного слоя нет связи. В этой сети количество скрытых слоев установлено на 10, что может повысить производительность. Мы предполагаем, что входной вектор - это x →, весовой вектор - это w →, а функция активации - сигмоидальная функция, тогда на выходе будет:

    а сигмовидная:

    Проверка модели

    Во многих исследованиях авторы часто использовали два метода проверки, а именно метод удержания и метод перекрестной проверки в k-кратном размере, чтобы оценить возможности модели (Kohavi, 1995; Bengio and Grandvalet, 2005; Kim, 2009; Chen et al. , 2016; Refaeilzadeh et al., 2016; Yang et al., 2016, 2018; Su et al., 2018; Tang H. et al., 2018). В зависимости от цели каждой проблемы и размера данных мы можем выбрать разные методы для решения проблемы. В методе удержания набор данных делится на две части: обучающий набор и тестовый набор. Обучающий набор используется для обучения алгоритма машинного обучения, а тестовый набор используется для оценки модели (Kim, 2009). Обучающий набор отличается от тестового набора. В данном исследовании мы использовали этот метод для проверки универсальной применимости методов. В k-кратном методе перекрестной проверкивесь набор данных используется для обучения и тестирования классификатора (Kim, 2009). Во-первых, набор данных в среднем делится наkучастков, которые называются складками. В процессе обучения метод использует k-1 кратность для обучения модели и однократную кратность - для тестирования. Этот процесс будет повторяться kраз, и каждая складка может быть тестовым набором. Конечный результат - это среднее значение всех тестов для всех складок (Kohavi, 1995). Преимущество этого метода заключается в том, что все выборки в наборе данных обучаются и тестируются, что позволяет избежать более высокой дисперсии (Refaeilzadeh et al., 2016; Kavakiotis et al., 2017). В этом исследовании мы использовали метод пятикратной перекрестной проверки.

    Выбор функции

    Методы выбора функций могут уменьшить количество атрибутов, что позволяет избежать избыточных функций. Есть много методов выбора функций. В этом исследовании мы использовали PCA и максимальную релевантность минимальной избыточности (mRMR) для уменьшения размерности.

    Анализ главных компонентов

    PCA (Wang and Paliwal, 2003; Polat and Günes, 2007; You et al., 2018) получает Kвекторов и единичные собственные векторы, решая характеристическое уравнение корреляционной матрицы наблюдаемых переменных. Собственные значения отсортированы от больших к меньшим, представляя дисперсию наблюдаемых переменных, объясняемую Kглавными компонентами, соответственно (Smith, 2002).

    Модель для извлечения факторов главных составляющих:

    где, F i- фактор главного компонента i; T ij- нагрузка фактора главной компоненты iна индекс j; m- количество факторов главных составляющих; k- количество индикаторов.

    Метод PCA может свести исходные множественные индикаторы к одному или нескольким комплексным индикаторам. Это небольшое количество всеобъемлющих индикаторов может отражать подавляющее большинство информации, отраженной исходными индикаторами, и они не связаны друг с другом, и они позволяют избежать повторения информации (Jackson, 1993; Jolliffe, 1998). В то же время сокращение показателей облегчает дальнейший расчет, анализ и оценку.

    Мы использовали решения для статистических продуктов и услуг (SPSS) для реализации алгоритма PCA. SPSS - это общий термин для серии программных продуктов и связанных с ними услуг, запускаемых IBM. Он в основном используется для статистического анализа, интеллектуального анализа данных, прогнозного анализа и других задач. SPSS имеет удобный визуальный интерфейс и прост в эксплуатации.

    Минимальная избыточность Максимальная релевантность

    mRMR (Jackson, 1993; Sakar et al., 2012; Li et al., 2016; Wang et al., 2018) гарантирует, что объекты имеют максимальные евклидовы расстояния или их попарные корреляции минимальны. Стандарты минимальной избыточности обычно дополняются крупнейшими соответствующими стандартами, такими как максимальная взаимная информация и целевые фенотипы. Достичь преимуществ можно двумя способами. Во-первых, с тем же количеством функций набор функций mRMR может иметь более репрезентативный целевой фенотип для лучшего обобщения. Во-вторых, мы можем использовать меньший набор функций mRMR, чтобы эффективно покрыть то же пространство, которое занимает более крупный стандартный набор функций. Для отдельных категориальных переменных уровень сходства между каждой характеристикой измеряется с использованием взаимной информации. Минимальное резервирование - это выбор, чтобы иметь самые разные функции. Подобно mRMR,исследователи также разработали максимальное расстояние до максимума релевантности (MRMD) (Zou et al., 2016b) для ранжирования функций. И они использовались в нескольких биомедицинских исследованиях (Zou et al., 2016a; Jia et al., 2018; Tang W. et al., 2018; Wei et al., 2018).

    Измерение

    В этом исследовании мы использовали чувствительность (SN), специфичность (SP), точность (ACC) и коэффициент корреляции Мэтьюза (MCC) для измерения классифицированной эффективности. И формулы следующие:

    где истинно положительный результат представляет (TP) количество идентифицированных положительных образцов в положительном наборе. Истинно отрицательный (TP) означает количество классификационных отрицательных образцов в отрицательном наборе. Ложноположительный результат (FP) - это количество идентифицированных положительных образцов в отрицательном наборе. А ложноотрицательный (FN) представляет количество идентифицированных отрицательных образцов в положительном наборе. Он часто используется для оценки качества моделей классификации. Точность определяется как отношение количества образцов, правильно классифицированных классификатором, к общему количеству образцов. В медицинской статистике есть две основные характеристики: чувствительность (SN) и специфичность (SP). Чувствительность - это истинно положительный показатель, а специфичность - истинно отрицательный показатель.MCC - это коэффициент корреляции между фактической классификацией и прогнозируемой классификацией. Диапазон его значений [-1, 1]. Когда MCC равен единице, это указывает на идеальное предсказание для объекта. Когда значение MCC равно 0, это указывает на то, что прогнозируемый результат не так хорош, как результат случайного прогнозирования, а -1 означает, что прогнозируемая классификация полностью несовместима с фактической классификацией.

    Результаты и обсуждение

    В таблицах мы использовали Лучжоу для представления набора данных из данных медицинского осмотра в больницах в Лучжоу, Китай, а индейцы пима представляют данные о диабетике у индейцев пима. Два набора данных содержат 14 и 8 атрибутов соответственно.

    Для лучшего сравнения, во-первых, мы использовали все возможности для прогнозирования диабета. Результаты представлены в таблице 1.

    ТАБЛИЦА 1.Прогнозируйте диабет, используя все функции.

    С помощью Таблицы 1 мы можем получить лучшие результаты. Кроме того, РФ имеет лучший результат среди трех классификаторов, когда набор данных представляет собой физический осмотр Лучжоу. Когда набор данных представляет собой индейцев пима, случайный лес имеет аналогичные эффекты с нейронными сетями. И структура дерева решений набора данных Luzhou показана на рисунке 2, структура дерева решений набора данных индейцев пима показана на рисунке 3. Согласно рисункам 2, 3 мы можем найти, что корневой узел - это глюкоза, что может показать, что глюкоза имеет максимальный объем информации, подтверждающий здравый смысл и основание клинического диагноза. Но есть пациенты с сахарным диабетом, у которых уровень глюкозы в крови натощак ниже 6,8 в наборе данных Лучжоу, мы рассмотрели причину, по которой они могли вводить инсулин перед физическим обследованием, чтобы контролировать уровень сахара в крови.

    РИСУНОК 2.Древовидная структура решений с использованием всех функций и набора данных Лучжоу. На этом рисунке мы видим, что уровень сахара в крови натощак является важным показателем для прогнозирования диабета. А вес, возраст также имеют больший объем информации и играют жизненно важную роль в этом методе.

    РИСУНОК 3.Древовидная структура решений с использованием всех характеристик и набора данных индейцев пима. Из этого рисунка мы можем найти в этом методе глюкозу в качестве корневого узла, что может указывать на то, что индекс имеет самый высокий набор информации, а инсулин и возраст играют важную роль в этом методе.

    Согласно соответствующей информации, мы знаем, что существует три показателя для определения сахарного диабета: уровень глюкозы в крови натощак, случайный уровень глюкозы в крови и толерантность к глюкозе. Поскольку данные содержат только глюкозу крови натощак в наборе данных Лучжоу, а набор данных индейцев пима имеет только толерантность к глюкозе крови, мы использовали для прогноза глюкозу крови натощак и толерантность к глюкозе соответственно. Результаты представлены в таблице 2.

    ТАБЛИЦА 2.Прогнозирование диабета с помощью глюкозы в крови.

    Согласно таблице 2, мы обнаружили, что в наборе данных Лучжоу J48 имеет лучшую производительность, чем другие, и точность выше 0,76. В наборе данных индейцев пима использование только толерантности к глюкозе в крови не годится.

    Затем мы использовали mRMR для выбора функций. Мы получаем оценку каждой функции. В соответствии с матрицей мы выбрали первые пять характеристик, а именно рост, ЛПВП, глюкозу натощак, дыхание и ЛПНП, для прогнозирования диабета с использованием набора данных Лучжоу и выбрали первые три атрибута, а именно глюкозу, 2-часовой сывороточный инсулин и возраст. , чтобы предсказать набор данных индейцев пима. Результаты представлены в таблице 3.

    ТАБЛИЦА 3.Прогнозирование диабета с помощью mRMR для уменьшения размерности.

    Когда мы используем набор данных Лучжоу, J48 показывает лучшую производительность. Но результаты не лучше, чем при использовании всех функций. В наборе данных индейцев пима этот метод, который использовал RF в качестве классификатора, имеет лучшую производительность.

    Затем мы использовали PCA, чтобы уменьшить количество функций. Поскольку рост и вес связаны с физическим индексом, мы не использовали рост и вес для использования PCA в наборе данных Лучжоу. Мы использовали SPSS для анализа факторов. Согласно тесту KMO и Бартлетта, два набора данных могут использовать PCA для уменьшения количества функций. И мы можем получить матрицу композиции и собственные значения. Согласно матрице композиции и интерпретации общей дисперсии, мы можем получить новые пять функций для набора данных Лучжоу и три функции для набора данных индейцев пима. Мы используем новые функции для проведения эксперимента, и результаты показаны в таблице 4.

    ТАБЛИЦА 4.Прогнозирование диабета с помощью PCA для уменьшения размерности.

    Набор данных ACC из Лучжоу меньше, чем указанные выше методы. Результаты показывают, что PCA не подходит для этих данных. Для набора данных индейцев пима точность лучше, чем использование только глюкозы. В эту секунду нейронная сеть имеет лучшую производительность для прогнозирования диабета.

    Чтобы изучить важность других индексов в прогнозировании диабета, мы разработали следующие эксперименты с использованием набора данных Лучжоу. Во-первых, мы использовали все функции без содержания глюкозы в крови для прогнозирования диабета, и результаты показаны в таблице 5.

    ТАБЛИЦА 5.Прогнозирование диабета с использованием всех функций без уровня глюкозы в крови.

    А затем мы удалили уровень глюкозы в крови, ЛПНП и ЛПВП, которые необходимо отправить в больницу для анализа данных. Итак, в этом эксперименте 11 функций, и результаты показаны в таблице 6.

    ТАБЛИЦА 6.Прогнозирование диабета с помощью 11 функций.

    Согласно таблицам 5, 6, мы обнаружили, что РФ может лучше прогнозировать диабет. Хотя точность не самая лучшая, мы можем использовать прогноз в качестве ориентира.

    В соответствии с вышеупомянутыми экспериментами мы суммировали приведенные выше результаты и получили рисунки 4, 5, которые могут более четко продемонстрировать точность каждого метода для лучшего сравнения.

    РИСУНОК 4.Результаты использования набора данных Лучжоу. Согласно этому рисунку, мы нашли метод, в котором использованы все функции и случайный лес, который имеет наибольшую производительность. А методы без глюкозы в крови не годятся.

    РИСУНОК 5.Результаты использования набора данных индейцев пима. Как видно из рисунка, mRMR подходит для этого набора данных, а метод, использующий только глюкозу, не подходит для этого набора данных.

    Из рисунков 4, 5 видно, что PCA не очень подходит для двух наборов данных. И использование всех функций дает хорошую производительность, особенно для набора данных Лучжоу. Нет большой разницы между случайным лесом, деревом решений и нейронной сетью, когда набор функций содержит глюкозу в крови. Когда мы использовали функции без уровня глюкозы в крови, случайный лес показал лучшую производительность. Но, условно говоря, нейронная сеть работает плохо.

    В соответствии с рисунком 4 мы выбрали несколько методов, которые показали лучшие результаты, и провели независимые тестовые эксперименты с использованием набора данных Лучжоу. Поэтому мы выбрали три метода (все функции, mRMR и уровень глюкозы в крови) для проведения независимых тестовых экспериментов. Результаты представлены в таблице 7.

    ТАБЛИЦА 7.Прогнозирование диабета с использованием данных теста на независимость.

    Согласно Таблице 7, мы обнаружили, что метод, использующий все функции, по-прежнему дает лучший результат. А метод с использованием только глюкозы в крови не годится, особенно с использованием нейронной сети в качестве классификатора. Причина такого результата может заключаться в том, что уровень глюкозы в крови содержит слишком мало информации.

    Поскольку набор данных Лучжоу собирается нами, он не может использовать эти данные для сравнительных экспериментов. Для сравнения с методами, описанными в других статьях, мы использовали набор данных индейцев пима для 10-кратных экспериментов по перекрестной проверке. Результаты представлены в таблице 8.

    ТАБЛИЦА 8.Прогнозирование диабета с использованием всех функций без уровня глюкозы в крови.

    Вывод

    Сахарный диабет - это заболевание, которое может вызывать множество осложнений. Стоит изучить, как точно предсказать и диагностировать это заболевание с помощью машинного обучения. В соответствии со всеми вышеупомянутыми экспериментами мы обнаружили, что точность использования PCA невысока, а результаты использования всех функций и использования mRMR имеют лучшие результаты. Результат, в котором использовалась только глюкоза натощак, показал лучшие результаты, особенно в наборе данных Лучжоу. Это означает, что глюкоза натощак является наиболее важным показателем для прогнозирования, но только использование глюкозы натощак не может достичь наилучшего результата, поэтому для точного прогнозирования нам нужно больше показателей. Кроме того, сравнивая результаты трех классификаций, мы можем обнаружить, что нет большой разницы между случайным лесом, деревом решений и нейронной сетью,но случайные леса явно лучше других классификаторов в некоторых методах. Наилучший результат для набора данных Лучжоу - 0,8084, а лучшая производительность для индейцев пима - 0,7721, что может указывать на то, что машинное обучение можно использовать для прогнозирования диабета, но очень важны поиск подходящих атрибутов, классификатора и метода интеллектуального анализа данных. Из-за данных мы не можем предсказать тип диабета, поэтому в будущем мы стремимся прогнозировать тип диабета и изучать долю каждого показателя, что может повысить точность прогнозирования диабета. Мы загрузили набор данных индейцев пима в http://121.42.167.206/PIMAINDIANS/data.html.классификатор и метод интеллектуального анализа данных очень важны. Из-за данных мы не можем предсказать тип диабета, поэтому в будущем мы стремимся прогнозировать тип диабета и изучать долю каждого показателя, что может повысить точность прогнозирования диабета. Мы загрузили набор данных индейцев пима в http://121.42.167.206/PIMAINDIANS/data.html.классификатор и метод интеллектуального анализа данных очень важны. Из-за данных мы не можем предсказать тип диабета, поэтому в будущем мы стремимся прогнозировать тип диабета и изучать долю каждого показателя, что может повысить точность прогнозирования диабета. Мы загрузили набор данных индейцев пима в http://121.42.167.206/PIMAINDIANS/data.html.

    Вклад авторов

    QZ разработал эксперименты. KQ и YL проводили эксперименты. KQ написал статью. DY и YJ проанализировали данные. HT предоставил данные.

    Финансирование

    Работа поддержана Национальной программой ключевых исследований и разработок Китая (SQ2018YFC090002) и Фондом естественных наук Китая (№№ 61771331 и 61702430), Фондом научных исследований Министерства здравоохранения провинции Сычуань (120373), Фондом научных исследований Департамент образования провинции Сычуань (11ZB122) Фонд научных исследований города Лучжоу (2012-S-36).

    Заявление о конфликте интересов

    Авторы заявляют, что исследование проводилось при отсутствии каких-либо коммерческих или финансовых отношений, которые могли бы быть истолкованы как потенциальный конфликт интересов.

    использованная литература

    Альгамди М., Аль-Маллах М., Кетейян С., Браунер К., Эрман Дж. И Сакр С. (2017). Прогнозирование сахарного диабета с помощью SMOTE и подхода ансамблевого машинного обучения: проект Генри Форда по тестированию с физической нагрузкой (FIT). PLoS One12: e0179805. DOI: 10.1371 / journal.pone.0179805

    Американская диабетическая ассоциация (2012). Диагностика и классификация сахарного диабета. Уход за диабетом35 (Приложение 1), S64 – S71. DOI: 10.2337 / dc12-s064

    Бенжио, Ю., и Грандвалет, Ю. (2005). Предвзятость в оценке дисперсии перекрестной проверки K-складки.Нью-Йорк, штат Нью-Йорк: Спрингер, 75–95. DOI: 10.1007 / 0-387-24555-3_5

    Брейман, Л. (2001). Случайный лес. Мах. Учить.45, 5–32. DOI: 10.1023 / A: 1010933404324

    Chen, XX, Tang, H., Li, WC, Wu, H., Chen, W., Ding, H., et al. (2016). Идентификация лиаз бактериальной клеточной стенки по псевдоаминокислотному составу. Биомед. Res. Int.2016: 1654623. DOI: 10.1155 / 2016/1654623

    Кокс, М. Е., и Эдельман, Д. (2009). Тесты для скрининга и диагностики диабета 2 типа. Clin. Диабет27, 132–138. DOI: 10.2337 / diaclin.27.4.132

    Дуйгу Ч., Есин Д. (2011). Система автоматической диагностики диабета на основе машинного классификатора опорных векторов LDA-вейвлетов. Эксперт Syst. Прил.38, 8311–8315.

    Фридл, Массачусетс, и Бродли, CE (1997). Древовидная классификация земного покрова на основе данных дистанционного зондирования. Remote Sens. Environ.61, 399–409.

    Георга, Э.И., Протопаппас, В.К., Ардиго, Д., Марина, М., Заварони, И., Полизос, Д. и др. (2013). Многофакторное прогнозирование подкожной концентрации глюкозы у пациентов с диабетом 1 типа на основе регрессии поддерживающих векторов. IEEE J. Biomed. Здоровье Информ.17, 71–81. DOI: 10.1109 / TITB.2012.2219876

    Хабиби, С., Ахмади, М., и Ализаде, С. (2015). Скрининг сахарного диабета 2 типа и факторы риска с использованием дерева решений: результаты интеллектуального анализа данных. Glob. J. Health Sci.7, 304–310. DOI: 10.5539 / gjhs.v7n5p304

    Хан, Л., Луо, С., Ю, Дж., Пан, Л., и Чен, С. (2015). Извлечение правил из машин опорных векторов с использованием подхода ансамблевого обучения: приложение для диагностики диабета. IEEE J. Biomed. Здоровье Информ.19, 728–734. DOI: 10.1109 / JBHI.2014.2325615

    Янку, И., Мота, М., и Янку, Э. (2008). «Метод анализа динамики уровня глюкозы в крови у пациентов с сахарным диабетом», в материалах Международной конференции IEEE 2008 г. по автоматизации, качеству и тестированию, робототехнике, Клуж-Напока. DOI: 10.1109 / AQTR.2008.4588883

    Джексон, Д.А. (1993). Правила остановки в анализе главных компонент: сравнение эвристического и статистического подходов. Экология74, 2204–2214. DOI: 10.2307 / 1939574

    Джеган, К. (2014). Классификация диабета с помощью машины опорных векторов. Микрокомпьютер. Dev.3, 1797–1801.

    Цзя, К., Цзо, Ю., и Цзоу, К. (2018). O-GlcNAcPRED-II: интегрированный алгоритм классификации для идентификации сайтов O-GlcNAцилирования на основе нечеткой недостаточной выборки и техники передискретизации K-средних PCA. Биоинформатика34, 2029–2036. DOI: 10.1093 / биоинформатика / bty039

    Цзян, Ю., и Чжоу, Чж (2004). Редактирование обучающих данных для классификаторов kNN с помощью ансамбля нейронных сетей. Лект. Notes Comput. Sci.3173, 356–361. DOI: 10.1007 / 978-3-540-28647-9_60

    Джоллифф, ИТ (1998). «Анализ основных компонентов» в материалах Международной конференции по анализу и распознаванию документов(Гейдельберг: Springer).

    Кавакиотис И., Цаве О., Салифоглу А., Маглаверас Н., Влахавас И. и Чуварда И. (2017). Методы машинного обучения и интеллектуального анализа данных в исследованиях диабета. Comput. Struct. Biotechnol. J.15, 104–116. DOI: 10.1016 / j.csbj.2016.12.005

    Ким, JH (2009). Оценка частоты ошибок классификации: повторная перекрестная проверка, повторное удержание и бутстрап. Comput. Стат. Data Anal.53, 3735–3745. DOI: 10.1016 / j.csda.2009.04.009

    Кохаби, Р. (1996). «Повышение точности наивно-байесовских классификаторов: гибрид дерева решений», в материалах Второй международной конференции по открытию знаний и интеллектуальномуанализу данных, Портленд, штат Орегон.

    Кохави, Р. (1995). «Исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели», в материалах 14-й Международной совместной конференции по искусственному интеллекту, Монреаль.

    Крастева А., Панов В., Крастева А., Киселова А., Крастев З. (2011). Полость рта и системные заболевания - Сахарный диабет. Biotechnol. Biotechnol. Оборудовать.25, 2183–2186. DOI: 10.5504 / BBEQ.2011.0022

    Ли, Би Джей, и Ким, Дж.Й (2016). Идентификация факторов риска диабета 2 типа с использованием фенотипов, состоящих из антропометрии и триглицеридов, на основе машинного обучения. IEEE J. Biomed. Здоровье Информ.20, 39–46. DOI: 10.1109 / JBHI.2015.2396520

    Ли, Б.К., Чжэн, Л.Л., Фэн, Канзас, Ху, Л.Л., Хуанг, Г.Х., и Чен, Л. (2016). Прогнозирование линейных эпитопов B-клеток с выбором и анализом функций mRMR. Curr. Биоинформ.11, 22–31. DOI: 10.2174 / 1574893611666151119215131

    Ляо, З., Цзюй, Ю. и Цзоу, К. (2016). Прогнозирование рецепторов, связанных с G-белком, с функциями SVM-Prot и случайным лесом. Scientifica2016: 8309253. DOI: 10.1155 / 2016/8309253

    Ляо, З.Дж., Ван, С., Хе, Ю. и Цзоу, К. (2018). Классификация малых GTPases с функциями гибридного белка и передовыми методами машинного обучения. Curr. Биоинформ.13, 492–500. DOI: 10.2174 / 1574893612666171121162552

    Лиау, А., Винер, М. (2002). Классификация и регрессия по randomforest. Р. Новости2, 18–22.

    Линь, К., Чен, В., Цю, К., Ву, Ю., Кришнан, С., и Цзоу, К. (2014). LibD3C: ансамблевые классификаторы со стратегией кластеризации и динамического выбора. Нейрокомпьютеры123, 424–435. DOI: 10.1016 / j.neucom.2013.08.004

    Лонаппан, А., Бинду, Г., Томас, В., Джейкоб, Дж., Раджасекаран, К., и Мэтью, К.Т. (2007). Диагностика сахарного диабета с помощью микроволн. J. Electromagnet. Волна.21, 1393–1401. DOI: 10.1163 / 156939307783239429

    Мукай Ю., Танака Х., Йошизава М., Оура О., Сасаки Т. и Икеда М. (2012). Вычислительный метод идентификации GPI-заякоренных белков с помощью искусственной нейронной сети. Curr. Биоинформ.7, 125–131. DOI: 10.2174 / 157489312800604390

    Озцифт, А., Гултен, А. (2011). Построение ансамбля классификатора с ротационным лесом для повышения эффективности медицинской диагностики алгоритмов машинного обучения. Comput. Методы Программы Биомед.104, 443–451. DOI: 10.1016 / j.cmpb.2011.03.018

    Пал, М. (2005). Классификатор случайных лесов для классификации с помощью дистанционного зондирования. Int. J. Remote Sens.26, 217–222. DOI: 10.1080 / 01431160412331269698

    Полат, К., Гюнес, С. (2007). Экспертно-системный подход к диагностике диабета, основанный на анализе главных компонентов и адаптивной нейронечеткой системе вывода. Цифра. Сигнальный процесс.17, 702–710. DOI: 10.1016 / j.dsp.2006.09.005

    Polat, K., and Kodaz, H. (2005). “The medical applications of attribute weighted artificial immune system (AWAIS): diagnosis of heart and diabetes diseases,” in Proceedings of the 4th International Conference on Artificial Immune Systems, Banff.

    Quinlan, J. R. (1986). Induction on decision tree. Mach. Learn.1, 81–106. doi: 10.1007/BF00116251

    Quinlan, J. R. (1996a). “Bagging, boosting, and C4.5,” in Proceedings of the Thirteenth National Conference on Artificial Intelligence(Menlo Park, CA: AAAI Press), 725–730.

    Quinlan, J. R. (1996b). Improved use of continuous attributes in C4.5. J. Artif. Intell. Res.4, 77–90. doi: 10.1613/jair.279

    Razavian, N., Blecker, S., Schmidt, A. M., Smith-McLallen, A., Nigam, S., and Sontag, D. (2015). Population-level prediction of type 2 diabetes from claims data and analysis of risk factors. Big Data3, 277–287. doi: 10.1089/big.2015.0020

    Refaeilzadeh, P., Tang, L., and Liu, H. (2016). “Cross-validation,” in Encyclopedia of Database Systems, eds L. Liu and M. T. Özsu (New York, NY: Springer), 532–538.

    Robertson, G., Lehmann, E. D., Sandham, W., and Hamilton, D. (2011). Blood glucose prediction using artificial neural networks trained with the AIDA diabetes simulator: a proof-of-concept pilot study. J. Electr. Comput. Eng.2011:681786. doi: 10.1155/2011/681786

    Sakar, C. O., Kursun, O., and Gurgen, F. (2012). A feature selection method based on kernel canonical correlation analysis and the minimum redundancy-maximum relevance filter method. Expert Syst. Appl.39, 3432–3437. doi: 10.1016/j.eswa.2011.09.031

    Salzberg, S. L. (1994). C4.5: programs for machine learning by J. Ross Quinlan. Morgan Kaufmann publishers, Inc., 1993. Mach. Learn.16, 235–240.

    Sharma, S., Agrawal, J., and Sharma, S. (2014). classification through machine learning technique: C4. 5 algorithm based on various entropies. Int. J. Comput. Appl.82, 28–32.

    Smith, L. I. (2002). A tutorial on principal components analysis. Inform. Fusion51:52.

    Su, Z. D., Huang, Y., Zhang, Z. Y., Zhao, Y. W., Wang, D., Chen, W., et al. (2018). iLoc-lncRNA: predict the subcellular location of lncRNAs by incorporating octamer composition into general PseKNC. Bioinformaticsdoi: 10.1093/bioinformatics/bty508 [Epub ahead of print].

    Svetnik, V., Liaw, A., Tong, C., Culberson, J. C., Sheridan, R. P., and Feuston, B. P. (2015). Random forest: a classification and regression tool for compound classification and QSAR modeling. J. Chem. Inform. Comput. Sci.43, 1947–1958. doi: 10.1021/ci034160g

    Tang, H., Zhao, Y. W., Zou, P., Zhang, C. M., Chen, R., Huang, P., et al. (2018). HBPred: a tool to identify growth hormone-binding proteins. Int. J. Biol. Sci.14, 957–964. doi: 10.7150/ijbs.24174

    Tang, W., Wan, S., Yang, Z., Teschendorff, A. E., and Zou, Q. (2018). Tumor origin detection with tissue-specific miRNA and DNA methylation markers. Bioinformatics34, 398–406. doi: 10.1093/bioinformatics/btx622

    Wang, S. P., Zhang, Q., Lu, J., and Cai, Y. D. (2018). Analysis and prediction of nitrated tyrosine sites with the mRMR method and support vector machine algorithm. Curr. Bioinform.13, 3–13. doi: 10.2174/1574893611666160608075753

    Wang, X., and Paliwal, K. K. (2003). Feature extraction and dimensionality reduction algorithms and their applications in vowel recognition. Pattern Recogn.36, 2429–2439. doi: 10.1016/S0031-3203(03)00044-X

    Watkins, A. B., and Boggess, L. (2002). “A resource limited artificial immune classifier,” in Proceedings of the 2002 Congress on Evolutionary Computation (CEC2002)(Honolulu, HI: IEEE Press), 926–931. doi: 10.1109/CEC.2002.1007049

    Wei, L., Xing, P., Shi, G., Ji, Z. L., and Zou, Q. (2018). Fast prediction of protein methylation sites using a sequence-based feature selection technique. IEEE/ACM Trans. Comput. Biol. Bioinform.doi: 10.1109/TCBB.2017.2670558 [Epub ahead of print].

    Yang, H., Qiu, W. R., Liu, G., Guo, F. B., Chen, W., Chou, K. C., et al. (2018). iRSpot-Pse6NC: identifying recombination spots in Saccharomyces cerevisiaeby incorporating hexamer composition into general PseKNC. Int. J. Biol. Sci.14, 883–891. doi: 10.7150/ijbs.24616

    Yang, H., Tang, H., Chen, X. X., Zhang, C. J., Zhu, P. P., Ding, H., et al. (2016). Identification of secretory proteins in Mycobacterium tuberculosisusing pseudo amino acid composition. Biomed. Res. Int.2016:5413903. doi: 10.1155/2016/5413903

    You, Y., Cai, H. M., and Chen, J. Z. (2018). Low rank representation and its application in bioinformatics. Curr. Bioinform.13, 508–517. doi: 10.2174/1574893612666171121155347

    Yue, C., Xin, L., Kewen, X., and Chang, S. (2008). “An intelligent diagnosis to type 2 diabetes based on QPSO algorithm and WLS-SVM,” in Proceedings of the 2008 IEEE International Symposium on Intelligent Information Technology Application Workshops, Washington, DC. doi: 10.1109/IITA.Workshops.2008.36

    Zhao, X., Zou, Q., Liu, B., and Liu, X. (2014). Exploratory predicting protein folding model with random forest and hybrid features. Curr. Proteom.11, 289–299. doi: 10.2174/157016461104150121115154

    Zou, Q., Wan, S., Ju, Y., Tang, J., and Zeng, X. (2016a). Pretata: predicting TATA binding proteins with novel features and dimensionality reduction strategy. BMC Syst. Biol.10(Suppl. 4):114. doi: 10.1186/s12918-016-0353-5

    Zou, Q., Zeng, J., Cao, L., and Ji, R. (2016b). A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing173, 346–354. doi: 10.1016/j.neucom.2014.12.123

    Keywords : diabetes mellitus, random forest, decision tree, neural network, machine learning, feature ranking

    Citation: Zou Q, Qu K, Luo Y, Yin D, Ju Y and Tang H (2018) Predicting Diabetes Mellitus With Machine Learning Techniques. Front. Genet.9:515. doi: 10.3389/fgene.2018.00515

    Received: 29 July 2018; Accepted: 12 October 2018;

    Published: 06 November 2018.

    Tao Huang, Shanghai Institutes for Biological Sciences (CAS), China

    Jianbo Pan, Johns Hopkins Medicine, United States

    Zhu-Hong You, Xinjiang Technical Institute of Physics & Chemistry (CAS), China

    Chao Pang, Columbia University Medical Center, United States

    Copyright © 2018 Zou, Qu, Luo, Yin, Ju and Tang. This is an open-access article distributed under the terms of the Creative Commons Attribution License (CC BY). The use, distribution or reproduction in other forums is permitted, provided the original author(s) and the copyright owner(s) are credited and that the original publication in this journal is cited, in accordance with accepted academic practice. No use, distribution or reproduction is permitted which does not comply with these terms.