A mineração de textos é uma área da ciência de dados que se concentra na extração de informações significativas e úteis de grandes conjuntos de documentos de texto não estruturados. Uma das abordagens mais interessantes nesse campo é a análise de sentimentos e a descoberta de tópicos. A análise de sentimentos visa identificar e categorizar as opiniões expressas em textos, atribuindo a eles um sentimento positivo, negativo ou neutro. Isso é fundamental para entender a opinião pública sobre determinados produtos, serviços, eventos ou questões sociais.
Para realizar a análise de sentimentos, as técnicas de mineração de textos geralmente envolvem o uso de algoritmos de aprendizado de máquina, que são treinados em grandes conjuntos de dados rotulados para reconhecer padrões de linguagem associados a diferentes sentimentos. Esses algoritmos podem ser capazes de identificar nuances semânticas e contextuais, como sarcasmo e ironia, para fornecer uma análise mais precisa. A descoberta de tópicos envolve a identificação de temas subjacentes em grandes volumes de texto, agrupando documentos semelhantes com base em seu conteúdo temático. Isso é útil para resumir grandes quantidades de informações e identificar tendências emergentes em áreas como análise de mercado, pesquisa acadêmica e monitoramento de mídias sociais.
As técnicas de descoberta de tópicos variam desde abordagens estatísticas, como modelos de tópicos probabilísticos, até métodos mais avançados de aprendizado de máquina, como redes neurais. Essas técnicas permitem que os pesquisadores identifiquem automaticamente os principais temas discutidos em um conjunto de documentos, sem a necessidade de leitura manual. O mini-curso "Mineração de textos: Uma abordagem voltada para a análise de sentimentos e descoberta de tópicos" visa introduzir a comunidade acadêmica e profissional nos conceitos e ferramentas da análise de sentimentos e a descoberta de tópicos e permitir as primeiras implementações em mineração de conteúdo análise de opiniões expressas em grandes volumes de texto, permitindo insights valiosos para empresas, pesquisadores e tomadores de decisão em uma variedade de campos.
Dia 1: O primeiro dia do curso abordará a análise de sentimentos, explorando algoritmos como Naïve Bayes, Support Vector Machines (SVM), Random Forest e Redes Neurais. Os participantes aprenderão a aplicar esses métodos para analisar e classificar sentimentos em conjuntos de dados textuais, compreendendo desde a teoria por trás desses algoritmos até sua implementação prática em Python.
Dia 2: No segundo dia, o foco será na extração de tópicos, utilizando técnicas como Latent Dirichlet Allocation (LDA) e Latent Semantic Indexing (LSI). Os alunos irão mergulhar na análise de grandes conjuntos de texto para identificar padrões e temas subjacentes. Eles aprenderão a implementar esses algoritmos, interpretar os resultados e aplicar estratégias para visualização e interpretação de tópicos descobertos.
Data: dias 07 e 08 de maio das 14h às 18h. Local: Departamento de Estatística, Centro de Ciências Exatas e da Natureza. Av. Jorn. Aníbal Fernandes - Cidade Universitária, Recife - PE, 50740-560. Universidade Federal de Pernambuco.(CCEN - UFPE). Curso exclusivamente presencial.