Pembelajaran mesin, menyimpulkan: Apakah alat “tanpa kode” mengalahkan analisis manual?

Aurich Lawson | Gambar Getty

Saya bukan ilmuwan data. Dan sementara saya tahu jalan di sekitar notebook Jupyter dan telah menulis banyak kode Python, saya tidak mengaku sebagai ahli pembelajaran mesin. Jadi ketika saya melakukan bagian pertama dari percobaan pembelajaran mesin tanpa kode/kode rendah kami dan mendapatkan tingkat akurasi yang lebih baik dari 90 persen pada suatu model, saya curiga saya telah melakukan sesuatu yang salah.

Jika Anda belum mengikuti sejauh ini, berikut ulasan singkatnya sebelum saya mengarahkan Anda kembali ke dua artikel pertama dalam seri ini. Untuk melihat seberapa banyak alat pembelajaran mesin untuk kita semua telah maju — dan untuk menebus diri saya sendiri untuk tugas yang tidak dapat dimenangkan yang telah saya tugaskan dengan pembelajaran mesin tahun lalu — saya mengambil kumpulan data serangan jantung yang sudah usang dari arsip di University of California-Irvine dan mencoba untuk mengungguli hasil siswa ilmu data menggunakan “tombol mudah” dari alat kode rendah dan tanpa kode Amazon Web Services.

Inti dari percobaan ini adalah untuk melihat:

  • Apakah seorang pemula relatif dapat menggunakan alat ini secara efektif dan akurat
  • Apakah alat itu lebih hemat biaya daripada menemukan seseorang yang tahu apa yang mereka lakukan dan menyerahkannya kepada mereka

Itu bukan gambaran sebenarnya tentang bagaimana proyek pembelajaran mesin biasanya terjadi. Dan seperti yang saya temukan, opsi “tanpa kode” yang disediakan Amazon Web Services—SageMaker Canvas—dimaksudkan untuk bekerja bersama dengan pendekatan ilmu data yang lebih banyak dari SageMaker Studio. Tapi Canvas mengungguli apa yang bisa saya lakukan dengan pendekatan kode rendah dari Studio—meskipun mungkin karena tangan saya yang kurang terampil menangani data.

(Bagi yang belum membaca dua artikel sebelumnya, sekaranglah waktunya untuk menyusul: Ini bagian pertama, dan ini bagian kedua.)

Menilai kerja robot

Canvas memungkinkan saya mengekspor tautan yang dapat dibagikan yang membuka model yang saya buat dengan build lengkap saya dari 590 lebih baris data pasien dari Klinik Cleveland dan Institut Kardiologi Hungaria. Tautan itu memberi saya sedikit lebih banyak wawasan tentang apa yang terjadi di dalam kotak hitam Canvas dengan Studio, platform berbasis Jupyter untuk melakukan eksperimen ilmu data dan pembelajaran mesin.

Seperti namanya yang licik, Jupyter didasarkan pada Python. Ini adalah antarmuka berbasis web ke lingkungan wadah yang memungkinkan Anda untuk memutar kernel berdasarkan implementasi Python yang berbeda, tergantung pada tugasnya.

Contoh container kernel yang berbeda tersedia di Studio.

Contoh container kernel yang berbeda tersedia di Studio.

Kernel dapat diisi dengan modul apa pun yang dibutuhkan proyek saat Anda melakukan eksplorasi yang berfokus pada kode, seperti Pustaka Analisis Data Python (panda) dan SciKit-Learn (sklearn). Saya menggunakan Jupyter Lab versi lokal untuk melakukan sebagian besar analisis data awal saya untuk menghemat waktu komputasi AWS.

Lingkungan Studio yang dibuat dengan tautan Canvas menyertakan beberapa konten bawaan yang memberikan wawasan tentang model yang diproduksi Canvas—beberapa di antaranya saya bahas secara singkat di artikel terakhir:

Detail model dari pertunjukan terbaik Canvas di Studio.
Memperbesar / Detail model dari pertunjukan terbaik Canvas di Studio.

Beberapa detail termasuk hyperparameter yang digunakan oleh versi model terbaik yang dibuat oleh Canvas:

Model hiperparameter.
Memperbesar / Model hiperparameter.

Hyperparameter adalah penyesuaian yang dibuat AutoML pada penghitungan oleh algoritme untuk meningkatkan akurasi, serta beberapa pemeliharaan dasar—parameter instans SageMaker, metrik penyetelan (“F1,” yang akan kita bahas sebentar lagi), dan input lainnya. Ini semua cukup standar untuk klasifikasi biner seperti kita.

Ikhtisar model di Studio memberikan beberapa informasi dasar tentang model yang dihasilkan oleh Canvas, termasuk algoritme yang digunakan (XGBoost) dan kepentingan relatif dari setiap kolom yang dinilai dengan sesuatu yang disebut nilai SHAP. SHAP adalah akronim yang sangat mengerikan yang merupakan singkatan dari “SHapley Additive exPlanations,” yang merupakan metode berbasis teori permainan untuk mengekstraksi kontribusi setiap fitur data terhadap perubahan dalam output model. Ternyata “detak jantung maksimum yang dicapai” memiliki dampak yang dapat diabaikan pada model, sementara hasil thalassemia (“thall”) dan angiogram (“caa”)—titik data yang datanya hilang secara signifikan—memiliki dampak yang lebih besar daripada yang saya inginkan. . Aku tidak bisa begitu saja menjatuhkan mereka, rupanya. Jadi saya mengunduh laporan kinerja untuk model untuk mendapatkan informasi lebih rinci tentang bagaimana model bertahan:

Pembelajaran mesin, menyimpulkan: Apakah alat “tanpa kode” mengalahkan analisis manual?

Leave a Comment