Basic Notions


Aprendizagem

 

            Em Data Mining lidamos com o conceito de aprendizagem. Aprendizagem no sentido de mudança de comportamento para que haja uma performance melhor no futuro. É bom ressaltar a melhora de performance que se quer obter, pois aprendizagem sem propósito é apenas treinamento. Também é desejado uma forma explícita de se representar o conhecimento que foi adquirido. Há basicamente dois tipos de aprendizagem:

 

-          Aprendizagem supervisionada:

            A aprendizagem supervisionada é assim chamada porque o método de aprendizagem opera sobre supervisão que está sendo dada da saída atual de cada uma das instâncias do conjunto de treinamento. Esta saída é chamada a classe do conjunto de treinamento. Este tipo de aprendizagem pode ser de duas formas:

            Na aprendizagem por classificação, um esquema de aprendizagem usa um conjunto de instâncias classificadas dos quais espera-se uma maneira de classificar instâncias não classificadas, ou seja, espera-se que se possa predizer uma classe discreta.

            Na aprendizagem por predição numérica, a saída a ser predita não é uma classe discreta mas sim uma quantidade numérica. Ela funciona de maneira similar à classificação.

 

-          Aprendizagem não - supervisionada:

 

                Neste caso não é levada em consideração a existência da classe. A classe pode existir só que ela não é estritamente necessária.

                Na aprendizagem por associação, qualquer associação entre instâncias é levada em conta, não só aquelas que predizem uma classe particular. É aplicada quando não há uma classe especificada ou quando qualquer tipo de estrutura é considerada interessante. Pode predizer qualquer valor de uma instância, não só a classe e mais de um valor de uma instância de uma vez.

Em aprendizagem por clustering, grupos de instâncias similares são divididas em clusters.

 

4. Atributos e Instâncias, Missing Values, Valores Inconsistentes

 

Atributos e Instâncias

 

                Cada conjunto de treinamento é descrito por um conjunto fixo de características, os seja, atributos. Em geral, instâncias de um conjunto de dados são caracterizados pelos valores dos campos, ou atributos, que medem diferentes aspectos de uma instância. Para um conjunto de dados representado com uma tabela, as instâncias seriam as informações contidas nas linhas de uma tabela enquanto que as informações contidas nas colunas seriam os atributos, sendo que um destes atributos é a classe do conjunto de treinamento (em aprendizagem supervisionada).

                O valor de um atributo para uma instância particular é uma medida da quantidade a que o atributo se refere. Estas quantidades podem ser numéricas ou nominais. Atributos numéricos, algumas vezes chamados atributos contínuos, medem números (tantos inteiros quanto reais). Atributos nominais levam em conta valores pre-especificados de um conjunto finito de possibilidades. Eles representam valores que são símbolos distintos. Não faz sentido somá-los ou multiplicá-los. Testes de igualdade podem ser feitos. Podem ser imposta ordem em valores nominais de modo a determinar quais atributos são maiores ou menores que outros.

 

Missing Values ( Valores Faltantes )

               

                A maioria dos conjuntos de treinamento encontrados na prática contem missing values. Eles são geralmente indicados nos conjuntos de treinamento como valores fora do escopo do atributo. Em atributos nominais, são indicados por valores em branco ou interrogações. Algumas vezes há diferentes tipos de missing values: valores desconhecidos, valores não registrados, valores irrelevantes... Eles podem ocorrer pelos motivos mais diversos possíveis: equipamento com problemas, mudança do experimento depois que os dados já haviam sido coletados, medida não possível em alguns casos, ... Caso eles ocorram em grandes quantidades deve-se fazer uma análise do conjunto de treinamento para avaliar o porque destas faltas.

 

Valores Inconsistentes (Ruído)

 

                Quando os dados são coletados muitos dos campos podem não ser verificados gerando erros e omissões que não afetam o propósito original dos dados mas que afetam o resultado do Data Mining. É gerado o chamado ruído no conjunto de treinamento. Alguns valores podem se tornar repetidos ou um valor contradiz ele mesmo ( pode estar registrado que uma pessoa gosta de banana e também que não gosta de banana, por exemplo ). Esses ruídos podem ser gerados pelos mais diferentes motivos (erros tipográficos, erros de medida, ...). Outras vezes os dados mudam com o tempo: CEP, número de telefone, e-mail... Este tipo de erro pode ser bem difícil de se encontrar, necessitando-se um especialista no assunto.

 

Exemplo dos conceitos dados acima:

 

          As aplicações de Data Mining podem até trabalhar com milhares de dados, mas para apresentar alguns conceitos será utilizado um pequeno conjunto de dados logo abaixo:

 

Outlook

Temperature

Humidity

Windy

Play

Sunny

85

85

False

No 

Sunny

80

90

True

No

Sunny

80

90

True

Yes

Overcast

83

?

False

Yes

Rainy

75

80

False

Yes

. . .

. . .

. . .

. . .

. . .

 

           No exemplo acima há quatro atributos: Outlook, Temperature, Humidity e Windy. O último campo, Play, é o resultado obtido pelos atributos, esta é a classe do conjunto de treinamento. Esta classe pode obter dois valores YES ou NO. A classe indica o resultado obtido depois de analisados os atributos acima. Este é um problema típico de classificação. As instâncias do problema se encontram da segunda linha da tabela para baixo.

Quanto aos valores:

           Os atributos Outlook e Windy tem valores nominais. Outlook possui os valores: Sunny, Overcast e Rainy. Windy possui os valores False e True. Os atributos Temperature e Humidity já contem uma ampla variedade de valores possíveis. Estes valores são denominados numéricos. Na coluna do atributo Humidity há um missing value indicado por um ponto de interrogação (?). Há duas instâncias que possuem os mesmos valores para Outlook, Temperature, Humidity e Windy, no entanto, possuem diferentes valores para a classe. Um dado deste tipo é considerado um valor inconsistente.