Big Data na Educação: é preciso abrir essa caixa preta

Navegando pela rede, você certamente já se viu diante de anúncios de algo que andou procurando, como se o seu navegador tivesse “adivinhado” o que você queria. Ou já recebeu uma sugestão de filme ou série que a Netflix achou que seria “a sua cara”…

(Bem, nem sempre funciona tão bem…)

… pois os nossos dados têm sido utilizados em sistemas de machine learning para fazer previsões e identificar tendências.

Muito se tem falado sobre as potencialidades do big data para a educação. Para quem não está familiarizado com o termo, trata-se dessas “coleções maciças de dados” (segundo os autores do artigo Tecnologias digitais na educação: a máquina, o humano e os espaços de resistência; clique para ler) que são geradas na medida em que navegamos por sistemas digitais e deixamos os nossos rastros nessas plataformas.

O que isso pode significar quando se trata de educação? A pergunta ainda é uma caixa preta, mas é preciso um esforço para abri-la.

Apesar do oceano de implicações positivas que vêm sendo apontadas para o uso de machine learning e de big data na educação, é preciso ir devagar com esse andor porque o santo é de barro. O que (vem sendo propagado que) o big data promete?

Quando se trata do uso de plataformas de aprendizagem baseadas em machine learning, basicamente o que se destaca é que, tendo mais informação sobre o desempenho e o ritmo individual de cada aluno, se poderá oferecer conteúdos mais apropriados à sua aprendizagem, no tempo e na sequência mais adequados para cada um. Com isso, se alcançaria “melhores” resultados, aproveitando ao máximo as potencialidades de cada aluno, resolvendo problemas e dificuldades que eles eventualmente tenham etc. Parece perfeito – e alinhado ao discurso da tecnologia como panaceia para tudo aquilo que se tem tentado solucionar na educação há tantos anos. Bem, esse, em si, já é um indício de que é preciso olhar para o tema com mais atenção.

Um exemplo, tirado deste livro aqui, intitulado Learning with Big Data – The Future of Education, é o rastreamento do comportamento de alunos em relação a vídeos de palestras numa plataforma online de atividades: é possível saber quando eles assistem aos vídeos, quando pausam, se aceleram para ver mais rápido, se os abandonam antes de terminar de assistir. Com base na identificação desses padrões, professores poderiam ajustar lições, decidir reforçar conceitos que aparentemente os alunos não entenderam bem ou mudar a maneira de explicar determinado assunto, por exemplo.

Mas, isso quer dizer que esteja ocorrendo um processo de aprendizagem melhor, realmente? Antes, aliás, isso significa que está ocorrendo, de fato, aprendizagem? O discurso costuma ser de que sim, mas… essa é uma conclusão que não se deve apressar.

Um artigo do New York Times – ‘The Machines Are Learning, and So Are the Students (“As Maquinas estão aprendendo, e também os alunos”), de Craig Smith, publicado em dezembro do ano passado – já no título traz um pressuposto enviesado para o uso de inteligência artificial na forma de machine learning: a ideia de que as máquinas aprendem. Mais audaciosamente, indica que os alunos estão aprendendo, também, graças a essas máquinas e sua suposta sagacidade. Smith diz:

Slowly, algorithms are making their way into classrooms, taking over repetitive tasks like grading, optimizing coursework to fit individual student needs and revolutionizing the preparation for College Board exams like the SAT. A plethora of online courses and tutorials also have freed teachers from lecturing and allowed them to spend class time working on problem solving with students instead.

Aqui, já vemos uma outra face do discurso: para além de individualizar o ensino, o uso de sistemas baseados em algoritmos poderia poupar os professores de tarefas como avaliar seus alunos e até de dar aulas expositivas (hum… alguém perguntou aos professores se eles querem parar de dar suas aulas?), podendo usar o tempo para trabalhar com seu alunos em “resolução de problemas”. Perceba que o discurso é sempre de usar melhor o tempo, aprender melhor, mas, não se sabe o que esse “melhor” de fato significa. Com frequência, a ideia adjacente é a de que o professor pode ser substituído, ao menos em certas atividades (tão diferentes quanto dar aulas expositivas e corrigir avaliações…).

Em outro trecho, que reproduzo a seguir, o jornalista aponta pesquisas (sem especificar quais) que teriam mostrado a superioridade de tutores na forma de inteligência artificial em relação a tutores humanos. Isso se daria porque “o computador é mais paciente” que o professor, além de mais insightful – o que poderia significar ter ideias melhores ou ser mais criativo (?)

Studies show that these systems can raise student performance well beyond the level of conventional classes and even beyond the level achieved by students who receive instruction from human tutors. A.I. tutors perform better, in part, because a computer is more patient and often more insightful.

Será?

Num cenário em que predomina o discurso sobre os efeitos positivos da inteligência artificial na educação, esse artigo é apenas um exemplo. São muitos os que trazem algo nessa mesma linha.

Somente com estas breves referências que apontei até aqui, já abrimos uma infinidade de questões a serem postas em xeque tanto sobre o uso efetivo da IA na educação na forma de [machine learning + big data] quanto sobre o discurso. Predomina uma argumentação acrítica e pasteurizada, que costuma assinalar os ganhos sem pesar as possíveis consequências advindas do uso massivo de dados.

Não se procura saber, nem mesmo, o que são esses dados. Isto é, o que quer dizer, efetivamente, o tempo que um estudante levou para fazer uma lição? Quando esse tempo é fornecido a partir do rastreamento da atividade desse aluno, ele não parece dizer muita coisa. O que realmente aconteceu com o aluno durante o tempo em que ele estava logado? Não somos meros logins, somos pessoas, num determinado espaço, em determinado momento. Talvez não possamos ser representados somente por números.

De volta para o futuro

Mesmo que se pudesse prever todas as adversidades envolvidas em dada situação cujo objetivo é o ensino e a aprendizagem, aí já está um x da questão: a previsão. Especialistas com um olhar crítico à IA na educação vêm indicando que isso pode gerar um passado cristalizado e prender os alunos a um futuro rígido, imutável.

This image has an empty alt attribute; its file name is antonino-visalli-Fu-K5VwabM8-unsplash-683x1024.jpg

Uma vez que o machine learning trabalha a partir de tais previsões, já que se utiliza de dados gerados pelos estudantes para que, com esses dados, possa identificar tendências, há o risco de os estudantes se tornarem eternamente atados ao seu passado – carregando uma espécie de mochila pesada de históricos escolares detalhados a seu respeito que nunca são esquecidos e podem permanecer acessíveis por mais tempo do que seria desejável.

Seu futuro lhes faria vítimas das previsões justamente baseadas em dados estáticos, os quais podem não corresponder mais à sua realidade. Somos, afinal, seres em constante transformação e evolução. Envolvidas nisso há diversas implicações, especialmente, para a privacidade dos alunos – já que os dados podem ficar acessíveis para fins questionáveis, o que pode prejudicar sua vida profissional e pessoal.

Neutralidade tecnológica?

De onde vêm os dados gerados a partir da atividade dos alunos em uma plataforma baseada em machine learning? Dados não surgem por acaso, não são espontâneos e nem existem por si só. Eles surgem nas interações entre alunos e máquinas, e essas interações são limitadas pela maneira como o sistema é construído, pelo que se espera dele, pelo que é injetado em seus algoritmos. Isto é, dados emergem a partir de decisões tomadas no desenvolvimento dos algoritmos para os sistemas de IA utilizados nas plataformas.

Nesse desenvolvimento, priorizam-se determinados aspectos em detrimento de outros.

Fatalmente, também por sua vez, os resultados obtidos trarão consigo a priorização de certo aspectos e não de outros. Um problema relevante, por trás disso, é que frequentemente somos avaliados por fórmulas secretas que não compreendemos, como ressalta a matemática Cathy O’Neil. Se o que se avalia não fica claro, é certo que, como O’Neil explica: “Para construir um algoritmo, são necessárias duas coisas: dados – o que aconteceu no passado – e uma definição de sucesso, aquilo que estamos procurando e pelo que estamos geralmente esperando”.

A definição de sucesso adotada estará instilada nos algoritmos. A suposta neutralidade tecnológica não existe...

Vieses

Pode-se facilmente compreender como pode haver (e há, muitos) vieses em algoritmos quando se trata do preconceito racial em alguns sistemas de reconhecimento facial, por exemplo. Esses são casos contundentes e que têm adquirido notoriedade, tornando-se o centro de preocupações éticas concernentes ao campo.

A IBM afirmou que abandonaria pesquisa em reconhecimento facial por conta das implicações éticas e da falta de regulamentação – Leia

Na educação, mencionei questões sobre a privacidade dos dados dos estudantes e ao fato de os sistemas não serem claros quanto às variáveis relacionadas ao que é avaliado. Mas, ainda não falei dos professores. Há também iniciativas que procuram avaliá-los a partir de big data, com consequências que merecem (muita!) atenção.

Em sua palestra no TED, O’Neil cita a diretora de um colégio no Brooklyn que, em 2011, disse a ela que sua escola estava avaliando os professores a partir de um algoritmo complexo – e secreto. A diretora relata que tentou conseguir a fórmula para entender os critérios envolvidos naquela avaliação, mas o que ouviu da secretaria de educação foi que não adiantava lhe explicar porque ela não entenderia, já que se tratava de matemática.

Conclusão (conheça a história no TED): professores daquela escola foram demitidos por causa da tal fórmula secreta, uma caixa preta que a diretora tentou abrir, sem sucesso.

Como O’Neil destaca, o poder de destruição de um algoritmo projetado de maneira equivocada é imenso, e essa destruição pode se arrastar por bastante tempo. Mas, quando o assunto é uma modelagem envolvendo algoritmos, o pior de tudo é a falta de transparência. Por isso ela cunhou o termo “armas de destruição matemática”.

Não somos somente pontinhos em um grande mapa de dados…
(Imagem: Maria Bobrova @ Unsplash)

O big data na educação é uma caixa preta devido à dificuldade, em geral, de entendimento do que a inteligência artificial, na forma do machine learning, significa ou pode significar para processos educacionais. E se torna ainda mais obscura quando, sem que se conheça os critérios utilizados, alunos e educadores sejam submetidos a avaliações e análises frequentemente injustas; e o pior, sem poder contestá-las.

O’Neil dá vários exemplos de como o uso indevido de dados tem prejudicado pessoas em variadas situações. Para entender isso melhor, é preciso olhar para a noção de modelo; o que é um modelo e por que ele pode se tornar uma arma de destruição matemática? Explicarei isso em outro post.

Agradeço à Giselle Ferreira, professora da PUC-Rio que está ministrando uma disciplina sobre big data e educação este semestre, pelos ricos debates que tanto colaboraram com insights para que este(s) post(s) fossem escritos. Leia o blog dela, no qual é possível obter uma perspectiva crítica sobre as tecnologias educacionais: https://visoesperifericas.blog/

Imagem principal do post: Franki Chamaki @ Unsplash