Com a crescente disponibilidade de modelos LLM poderosos em plataformas como HuggingFace e o avanço dos sistemas de IA disponíveis, como H2O, Text Gen e GPT4All, agora você pode baixar e executar modelos LLM diretamente em seu computador. Isso significa que você não precisa mais estar conectado à Internet para acessar os recursos de IA de maneira flexível e segura. Se você deseja experimentar a IA localmente, aqui estão nove dos melhores modelos LLM offline que você pode experimentar agora para se beneficiar da velocidade e segurança no processamento e da proteção contra a visualização de suas informações por vários provedores.
Links Rápidos
1. Hermes 2 Pro GPTQ
Hermes 2 Pro é um modelo de linguagem avançado aprimorado pela Nous Research. Ele usa uma versão atualizada e limpa do conjunto de dados OpenHermes 2.5, junto com o recém-introduzido conjunto de dados Function Calling e JSON Mode desenvolvido internamente. Este modelo é baseado na arquitetura Mistral 7B e foi treinado em 1000000 de instruções/chat com qualidade GPT-4 ou melhor, que são principalmente dados sintéticos.
Amostra | Hermes 2 Pro GPTQ |
---|---|
Tamanho do modelo | 7.26 GB |
os professores | 7 bilhões |
Engasgos | 4-bit |
النوع | Mistral |
A licença | Apache 2.0 |
Hermes 2 Pro no Mistral 7B é o novo modelo carro-chefe do Hermes 7B, que oferece desempenho aprimorado em vários benchmarks, incluindo AGIEval, BigBench Reasoning, GPT4All e TruthfulQA. Seus recursos aprimorados o tornam adequado para uma ampla variedade de tarefas de processamento de linguagem natural (PNL), como geração de código, criação de conteúdo e desenvolvimento de aplicativos de bate-papo com IA.
Baixar: Hermes 2 Pro GPTQ via Abraçando o rosto
2. Zéfiro 7B Beta
Zephyr é uma série de modelos de linguagem treinados para atuar como um assistente útil. Zephyr-7B-Beta é o segundo modelo da série, que foi ajustado com base no Mistral-7B-v0.1 usando Direct Preference Optimization (DPO) em uma combinação de conjuntos de dados sintéticos disponíveis publicamente.
Amostra | Zéfiro 7B Beta |
---|---|
Tamanho do modelo | 7.26 GB |
os professores | 7 bilhões |
Engasgos | 4-bit |
النوع | Mistral |
A licença | Apache 2.0 |
Ao remover o alinhamento inline em conjuntos de dados de treinamento, o Zephyr-7B-Beta mostra melhor desempenho em benchmarks como o MT-Bench, aumentando sua utilidade em diversas tarefas. No entanto, esta modificação pode criar um texto problemático quando solicitada de determinadas maneiras.
Baixar: Zephyr 7B Beta via Abraçando o rosto
3. Falcon instrui GPTQ
Esta versão quântica do Falcon é baseada na arquitetura somente decodificador de alta resolução do modelo Falcon-7b bruto da TII. O modelo básico do Falcon foi treinado usando 1.5 trilhão de tokens obtidos na Internet pública. Como um modelo de decodificação somente de instrução licenciado sob Apache 2, o Falcon Instruct é ideal para pequenas empresas que procuram um modelo para usar na tradução de idiomas e entrada de dados.
Amostra | Falcon-7B-Instrução |
---|---|
Tamanho do modelo | 7.58 GB |
os professores | 7 bilhões |
Engasgos | 4-bit |
النوع | falcão |
A licença | Apache 2.0 |
No entanto, esta versão do Falcon não é ideal para ajuste fino e destina-se apenas a inferências. Se você quiser ajustar o Falcon, terá que usar o modelo bruto, que pode exigir acesso a hardware de treinamento de nível empresarial, como aceleradores NVIDIA DGX ou AMD Instinct AI.
Baixar: Falcon-7B-Instruir via Abraçando o rosto
4. GPT4ALL-J bacana
GPT4All-J Groovy é um modelo somente decodificador ajustado pela Nomic AI e licenciado sob Apache 2.0. GPT4ALL-J Groovy é baseado no modelo GPT-J original, que é conhecido por ser ótimo na geração de texto a partir de prompts. GPT4ALL -J Groovy é configurado como um modelo de bate-papo, o que é ótimo para aplicativos de geração de texto rápidos e criativos. Isso torna o GPT4All-J Groovy ideal para criadores de conteúdo, para ajudá-los em sua escrita e trabalhos criativos, seja poesia, música ou histórias.
Amostra | GPT4ALL-J bacana |
---|---|
Tamanho do modelo | 3.53 GB |
os professores | 7 bilhões |
Engasgos | 4-bit |
النوع | GPT-J |
A licença | Apache 2.0 |
Infelizmente, o modelo GPT-J básico foi treinado apenas em um conjunto de dados em inglês, o que significa que mesmo este modelo GPT4ALL-J ajustado só pode conversar e gerar texto em inglês.
Baixar: GPT4ALL-J Groovy via Abraçando o rosto
5. Instrução do DeepSeek Coder V2
DeepSeek Coder V2 é um modelo de linguagem avançado que aprimora os recursos de programação e raciocínio matemático. Ele oferece suporte a uma ampla variedade de linguagens de programação e fornece comprimento de contexto estendido, tornando-o uma ferramenta versátil para desenvolvedores.
Amostra | Instrução do DeepSeek Coder V2 |
---|---|
Tamanho do modelo | 13 GB |
os professores | 33 bilhões |
Engasgos | 4-bit |
النوع | DeepSeek |
A licença | Apache 2.0 |
Comparado ao seu antecessor, o DeepSeek Coder V2 mostra um progresso significativo em tarefas relacionadas à programação, raciocínio e capacidades gerais. Ele expande o suporte para linguagens de programação de 86 para 338 e estende o comprimento do contexto de 16K para 128K caracteres. Em avaliações de benchmark, supera modelos como Turbo GPT-4 و Cláudio 3 Opus E Gemini 1.5 Pro em benchmarks de codificação e matemática.
Download: Instrução do DeepSeek Coder V2 via Abraçando o rosto
6. Mixtral-8x7B
Mixtral-8x7B é um modelo Mix of Expert (MoE) esparso desenvolvido pela Mistral AI. Possui oito especialistas para cada MLP, com um total de 45 bilhões de parâmetros. No entanto, apenas dois especialistas são ativados por código durante a inferência, tornando-o computacionalmente eficiente e comparável em velocidade e custo a um modelo denso de 12 bilhões de parâmetros.
Amostra | Mixtral-8x7B |
---|---|
Tamanho do modelo | 12 GB |
os professores | 48 bilhões |
Engasgos | 4-bit |
النوع | Mistral MoE |
A licença | Apache 2.0 |
Mixtral suporta um comprimento de contexto de 32K tokens e supera o Llama 2 70B na maioria dos benchmarks, igualando ou excedendo o desempenho do GPT-3.5. É proficiente em vários idiomas, incluindo inglês, francês, alemão, espanhol e italiano, o que o torna uma escolha versátil para diferentes tarefas de processamento de linguagem natural.
Baixar: Mixtral-8x7B via Abraçando o rosto
7. Wizard Vicuna sem censura-GPTQ
Wizard-Vicuna GPTQ é uma versão quantizada do Wizard Vicuna baseada no Lhama. Ao contrário da maioria dos modelos LLM lançados ao público, o Wizard-Vicuna é um modelo não supervisionado com controle removido. Isso significa que o modelo não possui os mesmos padrões éticos e de segurança da maioria dos modelos.
Amostra | Wizard-Vicuna-30B-Sem Censura-GPTQ |
---|---|
Tamanho do modelo | 16.94 GB |
os professores | 30 bilhões |
Engasgos | 4-bit |
النوع | Lhama |
A licença | GPL 3 |
Embora isso possa representar um problema no controle da IA, ter um modelo LLM não supervisionado também traz à tona o que há de melhor no modelo, permitindo que ele responda sem quaisquer restrições. Isso também permite que os usuários adicionem um alinhamento personalizado sobre como a IA agirá ou responderá com base em um prompt específico.
Baixar: Wizard-Vicuna-30B-Uncensored-GPTQ via Abraçando o rosto
8. Orca Mini-GPTQ
Você está procurando experimentar um modelo que foi treinado em um método de aprendizagem exclusivo? Orca Mini é uma implementação de modelo não oficial dos Orca Research Papers da Microsoft. Ele foi treinado usando um método de aprendizagem professor-aluno, onde o conjunto de dados estava cheio de explicações, em vez de apenas instruções e respostas. Em teoria, essa personalização deveria resultar em um aluno mais inteligente, pois o modelo pode entender o problema, em vez de apenas procurar pares de entrada-saída, como fazem os modelos LLM típicos.
Amostra | Orca Mini-GPTQ |
---|---|
Tamanho do modelo | 8.11 GB |
os professores | 3 bilhões |
Engasgos | 4-bit |
النوع | Lhama |
A licença | MIT |
Com apenas três bilhões de parâmetros, o Orca Mini GPTQ é fácil de executar, mesmo em sistemas menos potentes. No entanto, este formulário não deve ser utilizado para fins profissionais, pois gera informações falsas e respostas tendenciosas e ofensivas. Este modelo deve ser usado para aprender e experimentar a Orca e seus métodos.
Baixar: Orca Mini-GPTQ via Abraçando o rosto
9. Lhama 2 13B Bate-papo GPTQ
Llama 2 é o sucessor do Llama LLM original, oferecendo melhor desempenho e versatilidade. A variante 13B Chat GPTQ é ajustada para aplicativos de IA destinados ao diálogo em inglês otimizado para conversação.
Amostra | Lhama 2 13B Bate-papo GPTQ |
---|---|
Tamanho do modelo | 7.26 GB |
os professores | 13 bilhões |
Engasgos | 4-bit |
النوع | lhama 2 |
A licença | Metalicença |
Llama 2 destina-se ao uso comercial e de pesquisa. Os termos da licença permitem que empresas com menos de 700 milhões de usuários utilizem-no sem taxas adicionais. Este modelo é ideal para organizações que procuram uma solução de chatbot poderosa que requer pouco treinamento adicional.
Baixar: Lhama 2 13B Chat GPTQ via Abraçando o rosto
Alguns dos modelos acima possuem múltiplas versões em termos de parâmetros. Em geral, versões com parâmetros mais elevados proporcionam melhores resultados, mas requerem hardware mais potente, enquanto versões com parâmetros mais baixos geram resultados de qualidade inferior, mas podem ser executadas em hardware menos potente. Se você não tem certeza de que seu computador pode rodar este modelo, primeiro tente a versão com os parâmetros mais baixos e depois continue até sentir que a queda de desempenho não é mais aceitável. Agora você pode visualizar Você deve usar um modelo LLM local? Vantagens, desvantagens e melhores práticas.