Estudo de centroides para análise de agrupamento de dados

  • Autor
  • Marília Magalhães Maia
  • Co-autores
  • Luiza Helena Felix de Andrade
  • Resumo
  • Na análise de dados, o aprendizado de máquinas é o instrumento de ajuste usado para possibilitar a interpretação dos dados, no qual consiste em algoritmos que trabalham de acordo com os tipos de dados e objetivos da pesquisa. Os algoritmos se dividem em processos de aprendizagem supervisionado, onde os dados aplicados as informações já são previamente conhecidas e os não-supervisionados, onde não se conhece as tais informações. Dentre os não-supervisionados, o algoritmo k-means se destaca como sendo um algoritmo de agrupamento com mais de 60 anos desde sua criação, porém, devido sua eficiência, facilidade computacional e validade empírica, esse foi escolhido como instrumento a ser desenvolvido durante a pesquisa. Este algoritmo, tem seu funcionamento baseado no agrupamento dos dados que mais se aproximam de um determinado centroide. Esse por sua vez, é usado na análise de dados como ponto que guarda as características do conjunto que pertence. Ademais, o algoritmo tem como parâmetros a escolha da quantidade de grupos, ou cluster, nomeada de K, a inicialização aleatória, ou seja, a escolha aleatória dos centroides e a métrica utilizada, a qual a implementada no trabalho em questão e a comumente utilizada é a distância Euclidiana ao quadrado. Dessa forma, é evidente a importância do centroide para o funcionamento do algoritmo, mas além da representação dos dados que formam o cluster, a determinação da localização e dos membros do cluster também ficam sob sua responsabilidade. Ademais, ser possível descrevê-lo matematicamente é uma justificativa de enorme relevância do porquê a métrica mais usada é a distância Euclidiana ao quadrado. Sendo o centroide o ponto que minimiza a soma das distâncias ao quadrado entre os dados do cluster e ele, sua descrição matemática equivale a média aritmética de todos os dados pertencentes ao mesmo cluster. Diante do entendimento do funcionamento do algoritmo, este foi desenvolvido na linguagem do programa Python através da plataforma online Colaboratory, e não sofre limitação a quantidade de dados a ser inseridos, como o já existente no programa. Como processo de validação, foi implementado o conjunto de dados Iris, o qual fornece informações sobre tamanho e comprimento da sépala e pétala 150 flores classificadas em 3 espécies. O processo constituiu-se de comparar os agrupamentos resultantes do algoritmo, quando inseridas as dimensões das flores como dados e K igual a 3, com as classificações por espécie de cada dado. Dessa forma, o algoritmo deveria agrupar os dados de forma semelhante a classificação existente, omitida na implementação. Efetuando a divisão de forma satisfatória quanto a comparação, o algoritmo desenvolvido foi validado. Ademais, sendo este desenvolvido para aplicar a qualquer conjunto de dados em que se deseja agrupar sem o conhecimento prévio das informações de divisão, foram agrupados os dados do Exame Nacional do Ensino Médio aplicado em 2018, disponibilizados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira com o intuito de apresentar o funcionamento do mecanismo desenvolvido com uma aplicação em dados reais.

  • Palavras-chave
  • Análise de Dados, K-means, Centroide, Agrupamento.
  • Área Temática
  • Ciências Exatas e da Terra
Voltar Download
  • Ciências Exatas e da Terra
  • Ciências da Saúde
  • Ciências Humanas
  • Ciências Sociais Aplicadas
  • Linguística, Letras e Artes
  • Engenharias
  • Outros ou Multidisciplinar
  • Ciências Biológicas
  • Ciências Agrárias

Comissão Organizadora

Thaiseany de Freitas Rêgo
RUI SALES JUNIOR

Comissão Científica

RICARDO HENRIQUE DE LIMA LEITE
LUCIANA ANGELICA DA SILVA NUNES
FRANCISCO MARLON CARNEIRO FEIJO
Osvaldo Nogueira de Sousa Neto
Patrício de Alencar Silva
Reginaldo Gomes Nobre
Tania Luna Laura
Tamms Maria da Conceição Morais Campos
Trícia Caroline da Silva Santana Ramalho
Kátia Peres Gramacho
Daniela Faria Florencio
Rafael Oliveira Batista
walter martins rodrigues
Aline Lidiane Batista de Amorim
Lidianne Leal Rocha
Thaiseany de Freitas Rêgo
Ana Maria Bezerra Lucas