Tugas Data Mining Pertemuan 5 (Data Cleaning, Data Transformation, Data Reduction)

Link Google Colab: 

https://colab.research.google.com/drive/1efw7rxa6ZCU6eid92SVw86kj1FNy6BDa?usp=sharing

Link Laporan PDF: 

https://drive.google.com/file/d/1G1GJJSIbjVVznek3_qw8IaCVZVltXXA8/view?usp=sharing

Link Youtube Diskusi :
https://youtu.be/JrhMz1UetpM

Pendahuluan

Dalam analisis data transkrip nilai mahasiswa ini, saya melakukan langkah-langkah integrasi dan pembersihan data untuk mempersiapkan data sebelum dilakukan eksplorasi lebih lanjut. Pertama, saya mengambil data transkrip nilai mahasiswa dari API menggunakan Python dan menggabungkannya dengan data mahasiswa lulusan. Selanjutnya, saya melakukan beberapa tahap pembersihan data, seperti mengidentifikasi dan menangani nilai yang hilang, menghapus data mahasiswa pindahan, serta melakukan standardisasi format tanggal dan jenis kelamin. Setelah data siap, saya melakukan analisis terhadap IPS per semester per mahasiswa, hubungan antara IPS dan lulusan tepat waktu, korelasi antara predikat kelulusan 'Pujian' dengan lulusan tepat waktu, hubungan antara durasi studi dan predikat kelulusan, serta perbedaan prestasi akademik berdasarkan jenis kelamin. Langkah-langkah ini membantu kita dalam memahami lebih dalam faktor-faktor yang memengaruhi kinerja akademik mahasiswa.


Metode

Metode yang digunakan dalam analisis data transkrip nilai mahasiswa mencakup beberapa langkah utama:

1. Integrasi Data: Data transkrip nilai mahasiswa diambil dari API menggunakan Python dan dimasukkan ke dalam DataFrame menggunakan pustaka Pandas. Selanjutnya, data mahasiswa lulusan juga diambil dan dimasukkan ke dalam DataFrame terpisah. Kedua dataset ini digabungkan berdasarkan atribut yang relevan, seperti nomor identitas mahasiswa (NIM), menggunakan metode penggabungan (merge) dalam Pandas.

2. Pembersihan Data: Setelah penggabungan, dilakukan beberapa tahap pembersihan data. Pertama, dilakukan identifikasi dan penanganan nilai yang hilang dengan menggantikan nilai yang hilang dengan nilai rata-rata dari kolom yang bersangkutan. Selanjutnya, data mahasiswa pindahan dihapus dari dataset karena tidak relevan untuk analisis yang dilakukan. Selain itu, format tanggal dan jenis kelamin disesuaikan agar data lebih konsisten.

3. Analisis Data: Setelah data bersih, dilakukan analisis terhadap beberapa aspek yang telah diidentifikasi sebelumnya. Misalnya, perhitungan rata-rata Indeks Prestasi Semester (IPS) per mahasiswa per semester, hubungan antara IPS dan lulusan yang menyelesaikan studi tepat waktu, korelasi antara predikat kelulusan 'Pujian' dengan keberhasilan lulus tepat waktu, dan hubungan antara durasi studi dan predikat kelulusan. Selain itu, dilakukan juga analisis perbedaan prestasi akademik berdasarkan jenis kelamin.

4. Visualisasi Data: Hasil analisis data disajikan dalam bentuk visualisasi, seperti diagram pie untuk menunjukkan proporsi mahasiswa dengan predikat 'Pujian' yang lulus tepat waktu, serta scatter plot untuk menunjukkan hubungan antara durasi studi dan proporsi mahasiswa dengan predikat 'Pujian' yang lulus tepat waktu berdasarkan jenis kelamin.

Metode ini mengikuti pendekatan analisis data yang sistematis, dimulai dari integrasi dan pembersihan data, analisis terhadap variabel yang relevan, hingga visualisasi hasil analisis untuk memudahkan pemahaman dan interpretasi.


Hubungan antara IPS (Indeks Prestasi Semester) dengan lulus tepat waktu dieksplorasi dalam beberapa tahap:

1. Perhitungan IPS per Semester per Mahasiswa: Kode menghitung rata-rata IPS per semester per mahasiswa dari data transkrip nilai mahasiswa.

2. Gabungan dengan Dataset Mahasiswa Lulusan : Setelah itu, data IPS per semester per mahasiswa digabungkan dengan dataset mahasiswa lulusan berdasarkan nomor identitas mahasiswa (NIM).

3. Analisis Hubungan IPS dan Lulus Tepat Waktu: Meskipun tidak secara langsung ditampilkan dalam kode yang diberikan, analisis terhadap hubungan IPS dengan lulus tepat waktu bisa dilakukan pada tahap berikutnya. Misalnya, dengan menghitung rata-rata IPS mahasiswa yang lulus tepat waktu setelah menangani nilai yang hilang.

Pada tahap ini, rata-rata IPS dari mahasiswa yang lulus tepat waktu dapat dihitung dan dijadikan sebagai indikator potensial untuk mengidentifikasi hubungan antara prestasi akademik (yang tercermin dalam IPS) dengan keberhasilan lulus tepat waktu. Dengan demikian, analisis ini memungkinkan pemahaman lebih mendalam tentang apakah mahasiswa dengan IPS tertentu cenderung lebih berhasil dalam menyelesaikan studi tepat waktu.


Korelasi antara predikat kelulusan 'Pujian' dengan lulus tepat waktu dapat diidentifikasi melalui analisis data yang dilakukan. Berikut adalah langkah-langkah untuk mengevaluasi korelasi ini:

1. Identifikasi Mahasiswa dengan Predikat 'Pujian' dan Lulus Tepat Waktu:

   Menggunakan Pandas, dapat menghitung jumlah mahasiswa yang mendapatkan predikat 'Pujian' dan lulus tepat waktu dari dataset yang telah dipersiapkan sebelumnya.

   Proporsi ini memberikan gambaran tentang seberapa banyak mahasiswa dengan predikat 'Pujian' yang berhasil lulus tepat waktu dibandingkan dengan total mahasiswa yang lulus tepat waktu.

2. Visualisasi Proporsi Mahasiswa dengan Predikat 'Pujian' yang Lulus Tepat Waktu:



   Grafik ini memberikan visualisasi yang menggambarkan seberapa besar proporsi mahasiswa dengan predikat 'Pujian' di antara mahasiswa yang lulus tepat waktu.

Melalui analisis ini, dapat melihat apakah terdapat korelasi antara prestasi akademik yang diwakili oleh predikat 'Pujian' dengan keberhasilan lulus tepat waktu. Jika proporsi mahasiswa dengan predikat 'Pujian' yang lulus tepat waktu lebih tinggi dari proporsi total mahasiswa yang lulus tepat waktu, ini dapat menunjukkan adanya hubungan positif antara kedua faktor tersebut.


Hubungan antara Durasi Studi dan Predikat Kelulusan dapat memberikan wawasan tentang seberapa besar pengaruh lamanya studi terhadap prestasi akademik mahasiswa. Durasi studi yang lebih pendek biasanya berkorelasi dengan predikat kelulusan yang lebih tinggi, seperti 'Pujian', namun hal ini dapat bervariasi tergantung pada kebijakan dan kriteria penilaian institusi pendidikan. 


Perbandingan prestasi akademik berdasarkan jenis kelamin dapat memberikan wawasan tentang apakah terdapat perbedaan signifikan dalam kinerja akademik antara mahasiswa perempuan dan laki-laki. Analisis ini berguna untuk memahami dinamika dan faktor-faktor yang memengaruhi hasil belajar mahasiswa berdasarkan gender mereka. Perbandingan ini dapat dilakukan dengan menghitung rata-rata nilai total berdasarkan jenis kelamin menggunakan data yang telah dipersiapkan sebelumnya. Hasil analisis ini dapat memberikan gambaran yang lebih jelas tentang pola prestasi akademik yang mungkin berkorelasi dengan jenis kelamin mahasiswa.


Kesimpulan

Berdasarkan analisis perbandingan prestasi akademik berdasarkan jenis kelamin menggunakan data yang telah dipersiapkan, dapat disimpulkan bahwa terdapat perbedaan dalam kinerja akademik antara mahasiswa perempuan dan laki-laki. Meskipun demikian, kesimpulan lebih rinci tergantung pada hasil analisis secara spesifik, seperti apakah rata-rata nilai total mahasiswa perempuan lebih tinggi atau sebaliknya. Analisis ini memberikan wawasan penting tentang dinamika prestasi akademik yang dapat dipengaruhi oleh faktor gender, dan dapat menjadi dasar untuk pemahaman lebih lanjut serta pembahasan kebijakan pendidikan yang lebih inklusif dan berkelanjutan.

Komentar