Data Manipulation With Pandas (Part 1) — Python Programming

I PUTU SEDANA WIJAYA
3 min readNov 15, 2020
Sumber : https://www.redbubble.com/shop/python+pandas+stickers

Halooo teman-teman!

“Computers are able to see, hear and learn. Welcome to the future.” ~Dave Waters

Mencoba berkutik di bidang data science dan selagi ada DQ-Weekend Challenge yang membuat akhir pekanku lebih produktif, aku ingin mencoba menulis pengalaman setelah menyelesaikan modul Data Manipulation With Pandas Part 1 dari platform DQLab.

Yuk kita langsung bahas konsep yang aku udah pelajarin!

Pandas itu apa sih?

Mengapa menggunakan Pandas untuk memanipulasi data?

Pandas ini adalah library open source (gratis) pada bahasa emrograman python yang biasanya digunakan untuk menganalisis data dari file seperti csv, tsv, dsb. Dalam dunia data science, Pandas menjadi library yang popular karena memiliki banyak atribut yang mudah digunakan untuk memanipulasi data.

Library? Seperti perpustakaan begitu? Iyap betul, anggap saja perpustakaan memiliki banyak sekali buku yang bisa kita baca, maka ‘perpustakaan’ Pandas ini juga demikian. Ia memiliki beragam ‘buku’ yang pada dalam pemrograman arti buku ini adalah atribut atau fungsi yang dapat digunakan saat dipanggil oleh programmer.

Series dan DataFrame

Sebelum aku mengenal atribut dari Pandas, ternyata perlu memahami 2 kelas data yang ada pada Pandas terlebih dulu:

1. Series

Series pandas
Sumber: https://petruknisme.com/2019/04/15/pengenalan-pandas-dan-series/

Pada Series konsepnya seperti penyimpanan data judul pada seri film, dimana ketika judul seri nya menggunakan angka, maka seri selanjutnya harus menggunakan angka juga. Namun saat serinya menggunakan angka romawi (biasanya berupa string) seperti “I, II, III, IV” maka selanjutnya juga harus angka romawi. Series digunakan untuk mengelola data yang hanya memiliki satu tipe data dan kolom saja.

2. DataFrame

DataFrame Pandas
Sumber: https://petruknisme.com/2019/04/15/pengenalan-pandas-dan-series/

DataFrame merupakan kumpulan dari Series yang berbentuk seperti tabel yang digunakan untuk mengelola data yang lebih kompleks (memiliki kolom banyak dan beragam tipe data). Bentuknya lebih mirip seperti tabel pada Microsoft Excel.

Atribut Series dan DataFrame

Pada materi ini aku belajar mengenai beberapa atribut yang umum digunakan oleh data scientist. Seperti .info() yang digunakan untuk keseluruhan tipe data, baris dan kolom, jumlah non-null pada data (data kosong), dll. Untuk mengecek tipe datanya saja digunakan atribut .dtypes sedangkan mengecek baris dan kolom digunakan .shape. Atau kalau ingin barisnya saja ada atribut .index dan kolomnya saja ada atribut .columns. Adapun mengecek nilai unik dari setiap baris digunakan .unique.

Oh iya Pandas kan digunakan untuk memanipulasi data kenapa atribut di atas cuma mengecek data aja? Biasanya sebelum data scientist mengelola data, ia harus tau dulu karakteristik dari data tersebut. Oleh itu baru ia bisa memutuskan data yang mana harus dimanipulasi.

Bermacam — macam kegunaan dari atribut yang digunakan untuk memanipulasi data yaitu .loc() dan .iloc() mengakses index, .astype() mengubah tipe data, .copy() menyalin data tersebut ke variabel baru, ataupun .to_list() mengubah Series dan DataFrame ke struktur data seperti list pada python dan masih banyak atribut lainnya yang tersedia di library Pandas.

Aku juga belajar cara membuat Series dan DataFrame dari beragam struktur data seperti list, dictionary, dan numpy array dan menariknya langsung dapat live coding pada platform mereka loh!

Walaupun code editornya agak sensitif sih seperti penulisan “__“ yang tidak boleh diganti dengan ‘__‘ atau nama variabel yang harus sama persis seperti contoh, namun disitu aku juga belajar untuk mengatasi beragam error yang aku dapatkan ketika menjalankan sebuah program.

NB : Kedua quiz pada modul ini menurutku jawaban yang benar adalah Error, kenapa? karena di soal tidak terdapat code import library yang dibutuhkan seperti Pandas dan Numpy sehingga function seperti .to_list() ataupun pemanggilan np dan pd tidak dapat dijalankan, mungkin kedepannya team DQLab dapat menambahkan hal ini.

DQLab Module : Data Manipulation With Pandas

Sekian dan terima kasih telah membaca!

--

--