Documentação

Nesta página pode encontrar a bibliografia usada durante o projecto e as ferramentas informáticas.
O progresso semanal está descrito na secção Resultados.

Estado de Arte

Aqui pode visualizar o relatório em pdf intitulado de Estado de Arte deste projecto.

Software

Todo o material apresentado na secção dos resultados foi desenvolvido com recurso a estas duas ferramentas open source.

As versões em uso: Revolution R Open 8.0.1 beta e RStudio Desktop 0.98.1103.

Também foi instalado a versão open source do software RapidMiner e WEKA, ferramentas criadas para facilitar o uso a quem não tivesse conhecimentos de programação, ou seja, com uma curva de aprendizagem baixa. Optou se por utilizar o R e seus derivados neste projecto, uma veja que oferece um leque imenso de oportunidades, packages (incluive dos algoritmos do WEKA) e ferramentas complementares que poderam ser mais tarde incluidas no projecto. Possuír uma bibliografia invejável em termos de livros e materiais disponíveis na web. A desvantagem é que não há infromações sobre as operações de background e como o software utiliza os recursos de máquina disponíveis, como o funcionamento em relação a termos computacionais e até mesmo formas de customização para rodar em ambientes com alto poder computacional; além de ter uma interface de integração e pré-processamento de dados pobre em recursos de transformação.

Bibliografia

[1] Y Demchenko, C de Laat, and P Membrey. Defining architecture components of the Big
Data Ecosystem, 2014. doi:10.1109/CTS.2014.6867550.

[2] IBM. IBM What Is Big Data: Bring Big Data to the Enterprise. URL: http://www-01.
ibm.com/software/data/bigdata/.

[3] Xindong Wu, Xingquan Zhu, Gong-Qing Wu, and Wei Ding. Data mining with big data,
2014. doi:10.1109/TKDE.2013.109.

[4] SAS. Big Data What it is & why it matters. URL: http://www.sas.com/en_us/
insights/big-data/what-is-big-data.html.

[5] Stephen Kaisler, Frank Armour, and J.Albert Espinosa. Introduction to Big Data: Challenges,
Opportunities, and Realities Minitrack, 2014. doi:10.1109/HICSS.2014.97.

[6] Zhi-Hua Zhou, N V Chawla, Yaochu Jin, and G J Williams. Big Data Opportunities and
Challenges: Discussions from Data Analytics Perspectives [Discussion Forum], 2014. doi:
10.1109/MCI.2014.2350953.

[7] Christopher Clifton. Data mining Computer science. URL: http://www.britannica.
com/EBchecked/topic/1056150/data-mining.

[8] Seppo J. Ovaska. Computationally Intelligent Hybrid Systems: The Fusion
of Soft Computing and Hard Computing. John Wiley & Sons, Inc., Hoboken,
NJ, USA. URL: http://onlinelibrary.wiley.com/doi/10.1002/
9780471683407.ch10/summary, doi:10.1002/9780471683407.ch10.

[9] Usama M Fayyad. Data Mining and Knowledge Applications in Astronomy Discovery in
Databases : Science and Planetary. pages 1590–1592, 1996.

[10] R Cattral, F Oppacher, and D Deugo. Supervised and unsupervised data mining with an
evolutionary algorithm, 2001. doi:10.1109/CEC.2001.934267.

[11] V R Patel and R G Mehta. Hierarchical k-Means Algorithm(hk-Means) with Automatically
Detected Initial Centroids, 2011.

[12] P Indirapriya and D K Ghosh. A Survey on Different Clustering Algorithms in Data Mining
Technique. 3(1):267–274, 2013.

[13] V R Patel and R G Mehta. Performance analysis of MK-means clustering algorithm with
normalization approach, 2011. doi:10.1109/WICT.2011.6141380.

[14] Katti Faceli João Gama, André Ponce de Leon Carvalho, Márcia Oliveira, Ana Carolina
Lorena. Extração e Conhecimentos de Dados. 2012. URL: http://www.wook.pt/
ficha/extracao-de-conhecimento-de-dados/a/id/14238880.

[15] StevenL. Salzberg. C4.5: Programs for Machine Learning by J. Ross Quinlan. Morgan
Kaufmann Publishers, Inc., 1993, volume 16. Kluwer Academic Publishers, 1994. doi:
10.1007/BF00993309.

[16] Sebastian Kauschke, Immanuel Schweizer, Michael Fiebrig, and Frederik Janssen. Learning
to Predict Component Failures in Trains. (September 2014):8–10.

[17] A A Bakar, N Idris, A R Hamdan, Z Othman, M Z A Nazari, and S Zainudin. Classification
models for outbreak detection in oil and gas pollution area, 2011. doi:10.1109/ICEEI.
2011.6021832.

[18] N. Gayatri, Nickolas S., a.V. Reddy, and R. Chitra. Performance Analysis of Datamining
Algorithms for Software Quality Prediction. 2009 International Conference on
Advances in Recent Technologies in Communication and Computing, pages 393–395,
2009. URL: http://ieeexplore.ieee.org/lpdocs/

Resultados

Website