Seronok di Terminal Linux - Main dengan kiraan perkataan dan watak
- 4142
- 1060
- Daryl Wilderman
Barisan Perintah Linux bersenang -senang di sekelilingnya dan banyak tugas yang membosankan dapat dilakukan dengan sangat mudah dengan kesempurnaan. Bermain dengan kata -kata dan watak, kekerapan mereka dalam fail teks, dan lain -lain adalah apa yang akan kita lihat dalam artikel ini.
Satu -satunya arahan yang masuk ke dalam fikiran kita, kerana tweaking Linux Command Linux untuk memanipulasi kata -kata dan aksara dari fail teks adalah perintah wc.
Seronok dengan perkataan dan surat di dalam cengkerangA 'WC'Perintah yang bermaksud kiraan perkataan mampu mencetak Newline, Word & byte dari fail teks.
Untuk bekerja dengan skrip kecil untuk menganalisis fail teks, kita mesti mempunyai fail teks. Untuk mengekalkan keseragaman, kami membuat fail teks dengan output perintah manusia, seperti yang diterangkan di bawah.
$ man> lelaki.txt
Perintah di atas membuat fail teks 'lelaki.txt'Dengan kandungan'halaman manual'Untuk'lelaki'Perintah.
Kami ingin memeriksa kata -kata yang paling biasa, di atas dibuat 'Fail teks'Dengan menjalankan skrip di bawah.
$ kucing lelaki.txt | tr "2 '| tr' [: atas:]" [: lebih rendah:] '| tr -d '[: punct:]' | grep -v '[^a -z]' | Susun | uniq -c | sort -rn | kepala
Output sampel
7557 262 163 hingga 112 adalah 112 a 78 dari 78 manual 76 dan 64 jika 63 menjadi
Skrip mudah di atas satu liner menunjukkan, sepuluh perkataan yang paling kerap muncul dan kekerapan penampilannya, dalam fail teks.
Bagaimana dengan memecahkan perkataan ke dalam individu menggunakan arahan berikut.
$ echo 'TECMINT TEAM' | lipatan -w1
Output sampel
t e c m i n t t a m
Catatan: Di sini, '-w1' adalah untuk lebar.
Sekarang kita akan memecahkan setiap perkataan dalam fail teks, menyusun hasilnya dan mendapatkan output yang dikehendaki dengan kekerapan sepuluh aksara yang paling kerap.
$ lipatan -w1 < man.txt | sort | uniq -c | sort -rn | head
Output sampel
8579 2413 E 1987 A 1875 T 1644 I 1553 N 1522 O 1514 S 1224 R 1021 L
Bagaimana dengan mendapatkan aksara yang paling kerap dalam fail teks dengan huruf besar dan huruf kecil berbeza dengan kekerapan kejadian mereka.
$ lipatan -w1 < man.txt | sort | tr '[:lower:]"[:upper:]' | uniq -c | sort -rn | head -20
Output sampel
11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O 1269 R 1055 L 836 H 791 P 766 D 753 C 725 M 690 U 605 F 504 G 352 Y 344 .
Periksa output di atas, di mana tanda baca dimasukkan. Mari hapuskan tanda baca, dengan 'tr'Perintah. Di sini kita pergi:
$ lipatan -w1 < man.txt | tr '[:lower:]"[:upper:]' | sort | tr -d '[:punct:]' | uniq -c | sort -rn | head -20
Output sampel
11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O 1550 1269 R 1055 L 836 H 791 P 766 D 753 C 725 M 690 U 605 F 504 G 352 Y
Sekarang saya mempunyai tiga fail teks, mari laksanakan satu skrip liner di atas untuk melihat output.
$ kucing *.txt | FOLD -W1 | tr '[: lebih rendah:] "[: atas:]' sort | tr -d '[: punct:]' | uniq -c | sort -rn | kepala -8
Output sampel
11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O
Seterusnya kita akan menjana surat -surat yang jarang berlaku sekurang -kurangnya sepuluh huruf. Inilah skrip mudah.
$ kucing lelaki.txt | tr "2 '| tr' [: atas:]" [: lebih rendah:] '| tr -d '[: punct:]' | tr -d '[0-9]' | Susun | uniq -c | sort -n | grep -e '...' | kepala
Output sampel
1 ─────alian semua argumen dalam pilihan 1 dapat melihat setlocale untuk butiran tepat 1 pilihan AB yang dibatasi oleh tidak boleh digunakan bersama 1 yang dicapai dengan menggunakan pembolehubah persekitaran yang kurang 1 Proses kanak -kanak mengembalikan status keluar nonzero 1 bertindak seolah -olah pilihan ini dibekalkan menggunakan nama sebagai nama sebagai nama sebagai nama nama fail 1 mengaktifkan format mod tempatan dan memaparkan fail manual tempatan 1 aksen akut
Catatan: Semakin banyak titik dalam skrip di atas sehingga semua hasil dihasilkan. Kita boleh guna .10 untuk mendapatkan sepuluh perlawanan watak.
Skrip mudah ini, juga membuat kita tahu kata -kata dan watak yang paling kerap dalam bahasa Inggeris.
Itu sahaja buat masa ini. Saya akan berada di sini lagi dengan topik lain yang menarik dan tidak diketahui, yang anda suka membaca. Jangan lupa memberi kami maklum balas berharga anda di bahagian komen, di bawah.
Baca Juga: 20 Perintah Lucu Linux
- « DTRX - Pengekstrakan Arkib Pintar (TAR, ZIP, CPIO, RPM, DEB, RAR) untuk Linux
- Cara Menghentikan dan Melumpuhkan Perkhidmatan yang Tidak Diingini Dari Sistem Linux »