Jumat, 21 Oktober 2016

Statistik Deskriptif

Statistik deskriptif digunakan untuk menggambarkan fitur dasar data dalam sebuah penelitian. Mereka menyediakan ringkasan sederhana tentang sampel dan langkah-langkah.
Bersama dengan analisis grafis sederhana, mereka membentuk dasar dari hampir setiap analisis kuantitatif data.
Statistik deskriptif biasanya dibedakan dari statistik inferensial. Dengan statistik deskriptif Anda hanya menggambarkan apa atau apa data menunjukkan. Dengan statistik inferensial, Anda mencoba untuk mencapai kesimpulan yang melampaui data langsung saja. Misalnya, kita menggunakan statistik inferensial untuk mencoba untuk menyimpulkan dari data sampel apa populasi mungkin berpikir. Atau, kita menggunakan statistik inferensial untuk membuat penilaian dari probabilitas bahwa perbedaan diamati antara kelompok adalah diandalkan satu atau yang mungkin terjadi secara kebetulan dalam penelitian ini. Dengan demikian, kita menggunakan statistik inferensial untuk membuat kesimpulan dari data kami dengan kondisi yang lebih umum; kita menggunakan statistik deskriptif hanya untuk menggambarkan apa yang terjadi di data kami.
Statistik deskriptif digunakan untuk menyajikan deskripsi kuantitatif dalam bentuk dikelola. Dalam studi penelitian kita mungkin memiliki banyak langkah-langkah. Atau kita dapat mengukur sejumlah besar orang pada ukuran apapun.
Statistik deskriptif membantu kita untuk menyederhanakan data dalam jumlah besar dengan cara yang masuk akal. Setiap statistik deskriptif mengurangi banyak data ke dalam ringkasan sederhana. Misalnya, mempertimbangkan sejumlah sederhana yang digunakan untuk meringkas seberapa baik adonan yang tampil di bisbol, batting rata-rata. nomor tunggal ini hanyalah jumlah hit dibagi dengan jumlah kali di kelelawar (dilaporkan tiga digit signifikan). Sebuah adonan yang memukul 0,333 adalah mendapatkan hit satu kali dalam setiap tiga di kelelawar. Satu batting 0,250 adalah memukul satu kali dalam empat. Jumlah tunggal menjelaskan sejumlah besar peristiwa diskrit.
Atau, mempertimbangkan momok banyak siswa, yang Prestasi Kumulatif (IPK). nomor tunggal ini menggambarkan kinerja umum mahasiswa di berbagai berpotensi macam saja pengalaman.
Setiap kali Anda mencoba untuk menggambarkan satu set besar pengamatan dengan indikator tunggal Anda menjalankan resiko distorsi data asli atau kehilangan detail penting. Batting rata tidak memberitahu Anda apakah adonan memukul home run atau single. Itu tidak mengatakan apakah dia berada di kemerosotan atau kilat. IPK tidak memberitahu Anda apakah siswa itu dalam kursus sulit atau yang mudah, atau apakah mereka kursus di bidang utama mereka atau dalam disiplin lain. Bahkan diberikan keterbatasan ini, statistik deskriptif memberikan ringkasan kuat yang dapat memungkinkan perbandingan di orang atau unit lain.
Analisis univariat
Analisis univariat melibatkan pemeriksaan di kasus satu variabel pada suatu waktu. Ada tiga karakteristik utama dari sebuah variabel tunggal yang kita cenderung melihat:
distribusi
tendensi sentral
dispersi
Dalam kebanyakan situasi, kami akan menjelaskan ketiga karakteristik ini untuk masing-masing variabel dalam penelitian kami.
Distribusi. Distribusi ini adalah ringkasan dari frekuensi nilai-nilai individu atau rentang nilai untuk variabel. Distribusi yang paling sederhana akan daftar setiap nilai variabel dan jumlah orang yang memiliki nilai masing-masing. Misalnya, cara khas untuk menggambarkan distribusi mahasiswa adalah dengan tahun di perguruan tinggi, daftar nomor atau persen siswa di masing-masing empat tahun. Atau, kami menjelaskan gender dengan daftar nomor atau persen laki-laki dan perempuan. Dalam kasus ini, variabel memiliki cukup beberapa nilai-nilai yang kita bisa daftar masing-masing dan meringkas berapa banyak kasus sampel memiliki nilai. Tapi apa yang kita lakukan untuk variabel seperti pendapatan atau IPK? Dengan variabel ini bisa ada sejumlah besar nilai yang mungkin, dengan relatif sedikit orang yang memiliki masing-masing. Dalam hal ini, kami kelompok skor mentah menjadi kategori menurut rentang nilai. Misalnya, kita mungkin melihat IPK sesuai dengan rentang nilai-huruf. Atau, kita mungkin pendapatan kelompok menjadi empat atau lima rentang nilai pendapatan.
Tabel tabel distribusi 1. Frekuensi.
Salah satu cara yang paling umum untuk menggambarkan variabel tunggal dengan distribusi frekuensi. Tergantung pada variabel tertentu, semua nilai data dapat diwakili, atau Anda mungkin kelompok nilai-nilai dalam kategori pertama (misalnya, dengan usia, harga, atau variabel suhu, itu akan biasanya tidak masuk akal untuk menentukan frekuensi untuk setiap nilai.
Sebaliknya, nilai dikelompokkan ke dalam rentang dan frekuensi ditentukan.). distribusi frekuensi dapat digambarkan dalam dua cara, sebagai meja atau sebagai grafik. Tabel 1 menunjukkan distribusi frekuensi usia lima kategori rentang usia yang ditetapkan. Distribusi frekuensi yang sama dapat digambarkan dalam grafik seperti yang ditunjukkan pada Gambar 1. Jenis grafik sering disebut sebagai histogram atau bar chart.
Gambar 1. Frekuensi distribusi bar chart.
Distribusi juga dapat ditampilkan menggunakan persentase. Misalnya, Anda bisa menggunakan persentase untuk menggambarkan:
persentase orang di tingkat pendapatan yang berbeda
persentase orang dalam rentang usia yang berbeda
persentase orang dalam rentang yang berbeda dari nilai tes standar
Tendensi sentral. Kecenderungan pusat distribusi adalah perkiraan "pusat" dari distribusi nilai. Ada tiga jenis utama dari perkiraan tendensi sentral:
Berarti
rata-rata
Mode
Mean atau rata-rata mungkin metode yang paling umum digunakan untuk menggambarkan tendensi sentral. Untuk menghitung mean semua yang Anda lakukan adalah menambahkan semua nilai-nilai dan dibagi dengan jumlah nilai. Misalnya, mean atau rata-rata skor kuis ditentukan dengan menjumlahkan semua skor dan membaginya dengan jumlah mahasiswa yang mengambil ujian.
Misalnya, mempertimbangkan nilai-nilai skor tes:
15, 20, 21, 20, 36, 15, 25, 15
Jumlah dari 8 nilai-nilai ini adalah 167, sehingga rata-rata adalah 167/8 = 20,875.
Median adalah nilai ditemukan di tengah tepat dari set nilai. Salah satu cara untuk menghitung median adalah daftar semua nilai dalam urutan numerik, dan kemudian cari skor di tengah sampel. Sebagai contoh, jika ada 500 nilai dalam daftar, skor # 250 akan median. Jika kita memesan 8 skor yang ditunjukkan di atas, kita akan mendapatkan:
15,15,15,20,20,21,25,36
Ada 8 skor dan skor # 4 dan # 5 mewakili titik tengah. Karena kedua skor ini 20, median adalah 20. Jika dua nilai tengah memiliki nilai yang berbeda, Anda harus interpolasi untuk menentukan median.
Modus adalah nilai yang paling sering terjadi di set skor. Untuk menentukan mode, Anda mungkin lagi memesan skor seperti yang ditunjukkan di atas, dan kemudian menghitung masing-masing.
Nilai yang paling sering terjadi adalah modus.
Dalam contoh kita, nilai 15 terjadi tiga kali dan model. Dalam beberapa distro ada lebih dari satu nilai modal. Misalnya, dalam distribusi bimodal ada dua nilai yang paling sering terjadi.
Perhatikan bahwa untuk set yang sama dari 8 nilai kita punya tiga nilai yang berbeda - 20,875, 20, dan 15 - untuk mean, median dan modus masing-masing. Jika distribusi benar-benar normal (yaitu, bell-berbentuk), mean, median dan modus yang semua sama satu sama lain.
Penyebaran. Dispersi mengacu pada penyebaran nilai-nilai di sekitar tendensi sentral. Ada dua langkah umum dispersi, rentang dan deviasi standar. Rentang ini hanya nilai tertinggi dikurangi nilai terendah. Dalam distribusi contoh kita, nilai tinggi adalah 36 dan rendah adalah 15, sehingga kisaran adalah 36-15 = 21.
Standar Deviasi adalah perkiraan yang lebih akurat dan rinci dari dispersi karena outlier dapat sangat membesar-besarkan rentang (seperti yang benar dalam contoh ini di mana nilai outlier tunggal 36 berdiri terpisah dari sisa nilai-nilai. Standar Deviasi menunjukkan hubungan yang set skor harus mean sampel lagi memungkinkan mengambil set nilai.:
15,20,21,20,36,15,25,15
untuk menghitung standar deviasi, pertama kita menemukan jarak antara setiap nilai dan mean.
Kita tahu dari atas bahwa rata-rata adalah 20,875.
Jadi, perbedaan dari mean adalah:
15-20,875 = -5,875
20-20,875 = -0,875
21-20,875 = 0,125
20-20,875 = -0,875
36-20,875 = 15,125
15-20,875 = -5,875
25-20,875 = 4,125
15-20,875 = -5,875
Perhatikan bahwa nilai-nilai yang di bawah rata-rata memiliki perbedaan dan nilai-nilai negatif di atas itu memiliki yang positif. Selanjutnya, kita persegi setiap perbedaan:
-5,875 * -5,875 = 34,515625
-0,875 * -0,875 = 0,765625
0,125 * 0,125 = 0,015625
-0,875 * -0,875 = 0,765625
15,125 * 15,125 = 228,765625
-5,875 * -5,875 = 34,515625
4,125 * 4,125 = 17,015625
-5,875 * -5,875 = 34,515625
Sekarang, kita mengambil ini "kotak" dan jumlah mereka untuk mendapatkan Sum of Squares (SS) nilai. Di sini, jumlahnya adalah 350,875.
Selanjutnya, kita membagi jumlah ini dengan jumlah nilai dikurangi 1. Di sini, hasilnya adalah 350,875 / 7 = 50,125. Nilai ini dikenal sebagai
varians. Untuk mendapatkan standar deviasi, kita mengambil akar kuadrat dari varians (ingat bahwa kita kuadrat deviasi sebelumnya). Ini akan menjadi SQRT (50,125) = 7,079901129253.
Meskipun perhitungan ini mungkin tampak rumit, itu sebenarnya cukup sederhana. Untuk melihat ini, pertimbangkan rumus untuk deviasi standar:
Di bagian atas rasio, pembilang, kita melihat bahwa skor masing-masing memiliki rata-rata dikurangi dari itu, perbedaan adalah kuadrat, dan kotak dijumlahkan. Di bagian bawah, kita mengambil jumlah nilai dikurangi 1. Rasio adalah varians dan akar kuadrat adalah standar deviasi.
Dalam bahasa Inggris, kita bisa menggambarkan deviasi standar sebagai:
akar kuadrat dari jumlah kuadrat deviasi dari mean dibagi dengan jumlah skor minus satu
Meskipun kita dapat menghitung statistik ini univariat dengan tangan, hal itu akan sangat membosankan bila Anda memiliki lebih dari beberapa nilai dan variabel. Setiap program statistik yang mampu menghitung mereka dengan mudah untuk Anda. Misalnya, saya menempatkan delapan skor menjadi SPSS dan mendapat tabel berikut sebagai hasilnya:
N 8
berarti 20,8750
median 20,0000
Mode 15.00
Std. deviasi 7,0799
variance 50,1250
kisaran 21.00
yang menegaskan perhitungan yang saya lakukan dengan tangan di atas.
Standar deviasi memungkinkan kita untuk mencapai beberapa kesimpulan tentang nilai tertentu dalam distribusi kami. (! Atau dekat dengan itu) dengan asumsi bahwa distribusi skor normal atau berbentuk lonceng, kesimpulan berikut dapat dicapai:
sekitar 68% dari skor dalam sampel jatuh dalam satu standar deviasi dari mean
sekitar 95% dari skor dalam sampel jatuh dalam dua standar deviasi dari mean
sekitar 99% dari skor dalam sampel jatuh dalam tiga standar deviasi dari mean
Misalnya, sejak mean dalam contoh kita adalah 20,875 dan standar deviasi 7,0799, kita dapat dari estimasi pernyataan di atas bahwa sekitar 95% dari nilai akan jatuh di kisaran 20.875- (2 * 7,0799) ke 20.875+ (2 * 7,0799) atau antara 6,7152 dan 35,0348. informasi seperti ini adalah batu loncatan penting untuk memungkinkan kita untuk membandingkan kinerja individu pada satu variabel dengan kinerja mereka yang lain, bahkan ketika variabel diukur pada skala yang sama sekali berbeda.

Tidak ada komentar: