Resultados Recentes
Obtenção e Limpeza dos dados
7 Março 2015
Foi descarregado da base de dados MySQL da empresa, "raw data" sobre um projecto na Noruega. Os Dados são de um comboio X durante um determinado intervalo de tempo composto por 12 meses. Os dados eram compostos por 197209 linhas e 4 colunas, em que cada linha corresponde a um evento composto por 4 observações (colunas). Estas são o id do código de erro, a veracidade do erro numa escala de A a E sendo considerado o A o evento mais crítico, a data discriminada ao segundo do início da falha e por último a data do fim do evento.
Visualização e compreensão dos dados
14 Março 2015
Após a primeira etapa ter sido concluída avançou-se para a percepção dos dados. Pretende-se perceber o que significa cada variável e como se comporta, que padrões apresenta a olho nú, qual é a sua correlação com as outra variáveis para então se perceber se os dados nesta fase são relevantes ou se é necessario criar novas variáveis a partir destas. Esse processo é conhecido por Engenharia de Variáveis . Criaram-se vários gráficos e tabelas com esse fim.
Engenharia de Variáveis v1.0
21 Março de 2015
Os dados que temos para este problema necessitam de passar pelo processo de engenharia de variáveis devido as suas propriedades intrínsecas. No caso do id é apenas um número aleatório que distingue cada erro de outro, apenas se repete quando o mesmo erro volta a acontecer. Funciona como o nosso número de identificação fiscal por exemplo. Já a veracidade é uma variável que classifica o perigo da avaria a que está associada. A data do erro por si só não tem valor contudo é muito útil para criar medidas de estatística e percepção temporal.
Engenharia de Variáveis v2.0
28 Março de 2015
Nesta semana foram adequiridos dados complementares. Este complemento tornou o problema num problema de classificação pois estes novos dados, eram a identificação pelo Id das avarias reais no sistema das portas, avaria que obrigava o condutor a isolar a porta/degrau.
Criaram-se então mais gráficos agora com esta nova informação, esqueceu-se a última abordagem da engenharia de variáveis e começou-se uma nova com base na frequência dos códigos de erro e numa perspectiva de janela deslizante.
Definição da baseline do problema e medidas de avaliação
4 Abril de 2015
Pereceber como avaliar este problema da melhor maneira e qual é a baseline,isto é, apartir de quando é que se obtém ganho.
Desenho das Experiências
11 Abril de 2015
Escolher comose vai proceder as experiências, para que sejam reproduziveis posteriormente e feitas todas nas mesmas condições de modo a que nenhum algoritmo seja beneficiado.
Seleção dos algoritmos
18 Abril de 2015
Seleção de vários algoritmos de BI , Machine learning e AI para se usarem nas experiências. O algoritmo é treinado com base numa escolha dos parametros ótimos ou aproximadamente. A interface do package caret é usada.
Técnicas de Wrapper e filtragem
25 Abril de 2015
Estudo de técnicas para possivel redução do set de variáveis de modo a não se perca informação e mesmo haja ganho.
Treino dos Model
4 Maio de 2015
Nesta etapa treinou-se os models selecionados com o conjunto de dados de treino e validandado os modelos usando 10 fold Cross Validation. Avaliação recorrendo as medidas de "Accuracy", "Precision" e "Recall" dadas através da matrix de confusão gerada com as previsões efectuadas no pelos modelos nos dados de validação.
Técnicas de "over sampling"
18 Maio de 2015
Devido ao facto de os dados serem desbalanceados foi usada uma técnica de criação de amostras artificias das classes minoritarias com base na vizinhança mais próxima. Isto tem o intuito de reforçar as regras criadas pelos algoritmos.
Foram então re-treinados e avaliados os modelos.
Escrita da Tese
1 Junho de 2015
Documentação de todo o processo e resultados bem como comparação dos próprios resultados e análise crítica.