Analisa Relevansi Tweet terhadap Hashtag dengan Metode Logistic Regression
Abstract
Twitter sering kali digunakan sebagai sumber data untuk penelitian natural language processing, namun ada banyak sekali tweet yang tidak relevan pada topik yang dibicarakan, tweet yang tidak relevan itu seringkali membuat set data menjadi terkontaminasi sehingga dapat mempengaruhi kualitas dari hasil penelitian, dan perlu dibersihkan secara manual. Model yang diusulkan ini menggunakan tweet sebagai input untuk mengklasifikasikan tweet yang relevan atau tidak dengan topik yang sedang dibicarakan, metode yang digunakan adalah mengubah tweet tersebut dari sebuah kalimat menjadi sebuah bentuk data yang berisikan angka yang kemudian dimasukan kedalam sebuah bentuk matriks dan diproses dengan menggunakan metode logistic regression, dari hasil prediksi tersebut menunjukkan bahwa hasil akurasi model yang telah dibuat ini berada diatas angka 70%.
References
[2] M. N. Ardhiansyah, R. Umar, and Sunardi, “Analisis sentimen pada Twitter menggunakan metode support vector machine,” Semin. Nas.Teknol. Fak. Tek. Univ. Krisnadwipayana, vol. 1,no. 1, pp. 739–742, 2019.
[3] Hartanto, “Text mining dan sentimen analisis Twitter pada gerakan LGBT,” Intuisi J. Psikol.Ilm., vol. 9, no. 1, pp. 18–25, 2017.
[4] A. A. Budiman and S. Widiksono, “Aplikasi pengolahan data untuk menganalisa penggunaan hashtag pada Twitter,” J. Gerbang, vol. 8, no. 2, 2018.
[5] L. C. Dewi, Meiliana, and A. Chandra, “Social media web scraping using social media developers API and Regex,” Procedia Comput.Sci., vol. 157, pp. 444–449, 2019.
[6] I. Van Der Schalk, Z. A. Koesoemahardja, and S. Jansen, “The usefulness of Twitter for open source developers as a feedback tool for the success of their projects,” in IWSECO@ ICIS, 2016, pp. 25–38.
[7] Suprianto, Sunardi, and A. Fadlil, “Aplikasi sistem temu kembali angket mahasiswa menggunakan application of information retrieval for opinion student,” J. Teknol. Inf. danIlmu Komput., vol. 6, no. 1, pp. 33–40, 2019.
[8] P.KharismaditaandF.Rahutomo, “Implementasi tokenizing plus pada sistem pendeteksi keiripan jurnal skripsi,” J. Inform.Polinema, vol. 2, no. 1, pp. 24–28, 2015.
[9] H. Christian, M. P. Agus, and D. Suhartono, “Single document automatic text summarization using Term Frequency-Inverse Document Frequency (TF-IDF),” Procedia Comput. Sci., vol. 7, no. 4, p. 285, 2016.
[10] M. Kumari, A. Jain, and A. Bhatia, “Synonyms based term weighting scheme: An extension to TF.IDF,” Procedia Comput. Sci., vol. 89, pp. 555–561, 2016.Z. Ye, A. P. Tafti, K. Y. He, K. Wang, and M. M.
[11] He, “SparkText: Biomedical text mining on big data framework,” PLoS One, vol. 11, no. 9, p. e0162721, 2016.
[12] S. Shafieezadeh-Abadeh, P. M. Esfahani, and D. Kuhn, “Distributionally robust logistic regression,” Adv. Neural Inf. Process. Syst., pp. 1576–1584, 2015.
[13] M. A. Mansournia, A. Geroldinger, S. Greenland, and G. Heinze, “Separation in Logistic Regression: Causes, Consequences, and Control,” Am. J. Epidemiol., vol. 187, no. 4, pp. 864–870, 2018.
[14] Z. Zhang, “Model building strategy for logistic regression: Purposeful selection,” Ann. Transl.Med., vol. 4, no. 6, pp. 4–10, 2016.
[15] L. Lombardo, M. Cama, C. Conoscenti, M. Märker, and E. Rotigliano, “Binary logistic regression versus stochastic gradient boosted decision trees in assessing landslide susceptibility for multiple-occurring landslide events: application to the 2009 storm event in Messina (Sicily, southern Italy),” Nat. Hazards, vol. 79, no. 3, pp. 1621–1648, 2015.
[16] A. Safitri, Sudarmin, and M. Nusrang, “Model regresi logistik biner pada tingkat pengangguran terbuka di Provinsi Sulawesi Barat tahun 2017,” VARIANSI J. Stat. Its Appl. Teach. Res., vol. 1,no. 1, 2019.
[17] C. Sammut and G. I. Webb, Eds., Encyclopediaof Machine Learning and Data Mining, 2nd ed.New York: Springer Publishing Company Incorporated, 2017.
[18] S. Santos et al., “The Mendeleev-Meyer force project,” Nanoscale, vol. 8, no. 40, pp. 17400– 17406, 2016.