📎Utilizando o MFA (Lab automático)
🎉 WIP
🐍 Instalar o Montreal Forced Aligner com o Miniconda
Acesse o site oficial do Miniconda (https://docs.conda.io/en/latest/miniconda.html) e baixe o instalador adequado para o seu sistema operacional (32 bits ou 64 bits).
Siga as instruções na tela do instalador, aceitando os termos de licença e escolhendo o local de instalação (ou mantendo o local padrão).
Após o download ser concluído, execute o instalador.
Quando chegar na tela "Advanced Installation Options", selecione a opção "Add Anaconda to my PATH environment variable".
Clique em "Install" e aguarde o processo de instalação ser concluído.
Após a instalação ser concluída, abra o Prompt de Comando do Anaconda (ou o Prompt de Comando do Windows) e teste o Miniconda digitando "conda" na linha de comando. Se o Miniconda estiver instalado corretamente, você deve ver uma mensagem de ajuda do Conda.
Nesse tutorial vamos estar ultilizando o CMD do conda o “Anaconda Prompt” que foi instalado.
Pronto! Agora você tem o Miniconda instalado no seu Windows e está pronto para começar a usar o Conda com o nosso MFA.
💻 Inicializando o MFA BRAPA usando o Miniconda
A primeira etapa é instalar o MFA. Recomenda-se usar o Anaconda Prompt para instalar o MFA e suas dependências, pois isso garante que todas as dependências sejam instaladas corretamente.
Aqui está o código para criar um ambiente Conda e instalar o MFA:
conda create -n aligner -c conda-forge montreal-forced-alignerEm seguida rode o código para iniciar o Aligner:
conda activate alignerEsse é o código que você usa todas as vezes que for utilizar o Aligner (MFA), diferente da criação do ambiente!

🎤 Preparando os dados
O Alinhamento MFA utiliza de áudios e de transcrições para funcionar, separe os seus dados em gravações .wav e transcrições de texto em .txt

Os arquivos de transcrição precisam tem o mesmo nome dos arquivos de áudio:
exemplo.txt exemplo.wav
✍️ Transcrição Automática
Transcrição automática pode ser feita utilizando a tecnologia Whisper-AI da openAI para transcrever os seus áudios manualmente. nós do time brapa criamos um colab para te auxiliar:
De fácil utilização, apenas siga as instruções do colab.
✍️ Transcrição Manual
Ao invés de criar todos arquivos manualmente você pode optar por usar o Google colab que é disponibilizado pelo time BRAPA, uma forma simples de criar múltiplos arquivos de uma só vês a partir de um único arquivo de transcrição.
Dê upload nos arquivos de áudio, gere o arquivo base de transcrição. escreva a transcrição dos arquivos e dê upload na segunda parte da ferramenta, A segunda parte pega esse único arquivo e separa em múltiplos arquivos de texto.
🎁 Instalar o MFA BRAPA
Instalando o MFA BRAPA:
Acesse o repositório do MFA Brapa no GitHub: https://github.com/Team-BRAPA/BRAPA-MFA
Clique no botão "Code" e selecione "Download ZIP".
Descompacte o arquivo ZIP baixado em uma pasta de sua escolha.

Extraia o zip "BRAPA-MFA", e navegue até a pasta "Documents/MFA/pretrained_models".
Copie os arquivos da pasta "BRAPA-MFA/pretrained_models" para a pasta "Documents/MFA/pretrained_models".

Pronto! Agora o MFA Brapa está instalado na sua máquina e você pode usá-lo normalmente.
🎊 Validação de arquivos de áudio e texto
Depois de instalar o MFA, você precisará validar seus arquivos de áudio e texto para garantir que eles estejam formatados corretamente para o alinhamento.
Aqui está o código para validar seus arquivos:
mfa validate corpus_folder brapa_mfaSubstitua "corpus_folder" pelo caminho da pasta que contém seus arquivos de áudio e texto. Substitua "brapa_mfa" pelo caminho do arquivo de dicionário Brapa MFA.
Após o programa verificar a sua data, ele vai mostrar um caminho na pasta documentos/MFA/ Com um arquivo com todos os oov. são as palavras que não estão no nosso dicionário.
✨ Utilizando O MFA BRAPA
Agora que você tem tudo pronto, pode executar o alinhamento de fala usando o seguinte código:
mfa align --clean Corpus_folder brapa_mfa brapa_mfa Pasta_Saida Substitua "Corpus_folder" pelo caminho da pasta que contém seus arquivos de áudio e texto. Substitua "brapa_mfa" pelo caminho do arquivo de acústica Brapa MFA.
Substitua "brapa_mfa" pelo caminho do arquivo de dicionário Brapa MFA.
Substitua "Pasta_Saida" pelo Caminho da pasta onde você deseja salvar os arquivos TextGrid.
Após a execução do alinhamento, você encontrará os arquivos TextGrid na pasta especificada como Pasta_Saida.

Com essas etapas, você poderá usar o MFA para alinhar transcrições de fala e texto. Lembre-se de que é necessário validar seus arquivos de áudio e texto antes do alinhamento e certificar-se de que seus arquivos de áudio e texto estejam na mesma pasta.
🎉 Convertendo Textgrid para LAB
Para converter os arquivos Textgrid que você gerou para LAB se utiliza o colab que desenvolvemos para conversão:

Last updated