본문 바로가기
728x90
반응형

노코딩AI/AI설명12

트랜스포머 경량화 버전인 EfficientFormer에 대해 간단히 알아보도록 하겠습니다. 트랜스포머 알고리즘의 비약적인 경량화 Vision Transformer(ViT)는 2020년에 처음 출시된 이래 다양한 컴퓨터 비전 작업에서 놀라운 성능을 보여 왔습니다. 하지만 계산 복잡성과 지연 시간 문제로 인해 모바일 디바이스나 기타 리소스가 제한된 하드웨어에 배포하기가 어려웠습니다. 최근 논문인 "EfficientFormer: Vision Transformers at MobileNetSpeed"라는 논문에서 Snap과 노스이스턴 대학의 연구팀은 ViT 아키텍처에서 비효율적인 연산자를 식별하고 Transformer 아키텍처의 고성능을 유지하면서 경량 모바일넷 CNN만큼 빠르게 실행할 수 있는 새로운 ViT 설계 패러다임을 제안함으로써 이 문제를 해결했습니다. 보시면 EfficientFormer-L1.. 2023. 3. 17.
mAP, IOU란? Object Detection 성능 평가 지표 질문 영상탐지율이라는 개념에서 map(mean average precision)과 iou(interaction over union)이라는 개념이 있잖아요 혹시 이런식으로 쓴다면 표현이 맞는건가요? 영상탐지율 0.2mAP 이상 @ 0.25IOU 기존문서에 이렇게 표현되어 있는데 제가 공부하면서 보니 이런식으로 쓰는 표현이 안보여서요... 답변 보통 mAP(mean average precision)는 IOU(interaction over union)와 지표를 함께 사용하여 표현합니다. mAP는 모든 클래스에 대한 평균 정밀도를 의미하고, IOU는 예측한 바운딩 박스와 실제 바운딩 박스의 교집합과 합집합의 비율을 의미합니다. mAP@0.5와 같이 쓰면 IOU가 0.5 이상인 경우에만 mAP를 계산한다는 뜻입니.. 2023. 3. 16.
microsoft visual chatgpt 출시 및 colab 사용법 가이드 Microsoft 연구원들은 최근 ChatGPT의 기능과 안정적 확산과 같은 시각적 기반 모델을 결합하는 것을 목표로 하는 논문을 발표했습니다. 'Visual ChatGPT'라고 불리는 이 아키텍처는 텍스트-대-이미지 생성과 자연어 생성 사이의 간극을 메우고자 합니다. AIM이 예측한 대로, 이것이 텍스트-이미지 알고리즘이 나아갈 길인 것 같습니다. 이 접근 방식은 ChatGPT와 같은 LLM의 강점과 이미지 생성 기능을 결합하여 두 플랫폼의 단점을 모두 커버하는 포괄적인 패키지를 제공합니다. 매개변수 기반 이미지 생성 모델에 자연어 처리를 도입함으로써 보다 유기적인 방식으로 AI와 상호 작용할 수 있습니다. Visual ChatGPT는 어떻게 작동하나요? 간단히 말해, Visual ChatGPT는 Ch.. 2023. 3. 15.
diffusion 모델 중 LoRA 모델에 대해 알아보고 이미지 생성해보기 오늘은 LoRA 모델에 대해서 알아보고 WebUI로 직접 구현하는 시간을 가져보겠습니다. LoRA 모델은 표준 체크포인트 모델에 작은 변경 사항을 적용하는 소규모 안정적 확산 모델입니다. 일반적으로 체크포인트 모델보다 10~100배 더 작습니다. 따라서 다양한 모델을 보유한 사람들에게 매우 매력적입니다. LoRA 모델이란? LoRA(낮은 순위 적응)는 안정적 확산 모델을 미세 조정하기 위한 훈련 기법입니다. 하지만 이미 드림부스나 텍스트 반전과 같은 훈련 기법이 있습니다. 2023.03.12 - [노코딩AI/AI설명] - diffusion의 확장 모델인 dreambooth에 대해 알아보고 이미지 생성해보기 diffusion의 확장 모델인 dreambooth에 대해 알아보고 이미지 생성해보기 Dreambo.. 2023. 3. 12.
diffusion의 확장 모델인 dreambooth에 대해 알아보고 이미지 생성해보기 Dreambooth는 2022년에 Google 연구팀과 보스턴 대학교의 연구자들이 개발한 딥러닝 생성 모델입니다. Dreambooth는 기존의 텍스트-이미지 모델을 세부적으로 조정하거나 새로운 이미지를 생성할 수 있습니다. Dreambooth는 다른 디퓨전 모델(예: DALL.E 2, 미드저니, Stable Diffusion)이 할 수 없거나 부족한 것들을 할 수 있습니다. Dreambooth는 사진부스와 비슷하지만, 한 번 주제를 캡처하면 꿈에서 볼 수 있는 곳 어디든 합성할 수 있다고 합니다. 예를 들어, 자신의 사진을 업로드하고 'as a full body shot of you in a suit’이라고 입력하면 Dreambooth가 자신의 사진을 바탕으로 정장 차림의 전신샷을 그리는 이미지를 생성합.. 2023. 3. 12.
스테이블 디퓨전 Textual Inversion에 대해 속성으로 알아보도록 하겠습니다. 생성 커뮤니티에서 Stable Diffusion이 굉장히 핫해지고, 생성 AI에 대한 발전이 급속도로 이루어지고 있는데요. 그 중 하나가 Textual Inversion입니다. 아래는 논문으로 개제 된 정식 명칭인데요. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion 텍스트 반전을 이용해서, 개인화 된 텍스트 투 이미지 생성을 하겠다라는 목표를 가지고 있습니다. 여기에는 기존의 Latent Diffusion Models을 사용했다고 언급 했구요. 미리 학습 되어 있는 텍스트-이미지 모델(Latent DIffusion Models)의 임베딩 공간에 새로운 '단어'를 사용하여 개인 사물이나 예술.. 2023. 3. 11.
확장자에 ckpt 말고 safetensors가 붙는 이유는 뭘까? safetensors란? safetensors란? safetensors는 AI 모델의 데이터를 저장하고 배포하기 위한 새로운 형식으로, HuggingFace가 주도적으로 개발하고 있습니다. safetensors는 기존의 ckpt 형식의 여러 단점을 개선하기 위해 만들어졌으며, 웹 UI에서 쉽게 불러오고 사용할 수 있습니다. safetensors는 JSON 헤더와 바이너리 텐서 데이터로 구성되어 있으며, 리틀 엔디언 방식을 사용합니다. 기존 ckpt의 단점은? ckpt 형식은 텐서플로우에서 모델의 가중치나 그래프를 저장하는 파일입니다. ckpt 형식의 단점은 다음과 같습니다. 1. 모델의 구조나 코드를 저장하지 않으므로, 별도의 파이썬 파일이 필요합니다. 2. 형식은 특정한 파이썬 직렬화 방식을 사용하므로, 다른 언어나 프레임워크.. 2023. 3. 4.
인공지능과 딥러닝은 무엇이 다른가요? 인공지능과 딥러닝의 차이 인공 지능(AI)과 딥 러닝은 우리가 생활하고 일하는 방식을 변화시키는 서로 연관되어 있지만 별개의 연구 분야입니다. 이 블로그 게시물에서는 AI와 딥 러닝의 차이점과 이들이 지능형 시스템과 기계를 만드는 데 어떻게 사용되는지 살펴보겠습니다. 인공 지능(AI) 인공 지능은 컴퓨터와 기계가 일반적으로 인간 지능이 필요한 작업을 수행하는 능력을 말합니다. 여기에는 패턴 인식, 예측 및 문제 해결과 같은 작업이 포함될 수 있습니다. AI는 기계가 데이터에서 학습하고 스스로 결정을 내릴 수 있도록 하는 알고리즘과 기계 학습을 사용하여 달성됩니다. 딥 러닝 딥 러닝은 대량의 데이터에서 학습할 수 있는 인공 신경망을 만드는 데 중점을 둔 AI의 하위 분야입니다. 이러한 네트워크는 인간 두뇌의 구조와 기능에서 영감을.. 2023. 2. 15.
인공 지능이란 무엇인가? 인공지능에 대해 알아보도록 하겠습니다. 인공 지능 또는 AI는 우리가 생활하고 일하는 방식을 변화시키는 빠르게 성장하는 분야입니다. 자율 주행 자동차에서 음성 인식 가상 비서에 이르기까지 AI는 우리가 알고 있는 세상을 변화시키고 있습니다. 이 블로그 게시물에서는 AI의 기본 사항과 AI가 사회에 미치는 영향에 대해 살펴보겠습니다. 인공 지능이란 무엇입니까? 인공 지능은 컴퓨터와 기계가 일반적으로 인간 지능이 필요한 작업을 수행하는 능력을 말합니다. 여기에는 패턴 인식, 예측 및 문제 해결과 같은 작업이 포함될 수 있습니다. AI는 기계가 데이터에서 학습하고 스스로 결정을 내릴 수 있도록 하는 알고리즘과 기계 학습을 사용하여 달성됩니다. 인공지능의 종류 다음을 포함하여 여러 유형의 AI가 있습니다. Narrow AI: 이 유형의 AI는 특정 .. 2023. 2. 15.
Logistic Regression(로지스틱 회귀) 가장 많이 사용하는 파이썬 알고리즘 part2. Logistic Regression입니다. 기본 예제입니다. 이전 포스트인 Linear Regression과 동일한 데이터(타이타닉 생존자)를 사용하였습니다. import numpy as np import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # Load data into a Pandas DataFrame data = pd.read_csv("data.csv") # Split the data into features (X) and target variable .. 2023. 2. 4.
Linear Regression(선형회귀) 가장 많이 사용하는 파이썬 알고리즘 part1. Linear Regression입니다. 가장 기본적인 예제입니다. import numpy as np import pandas as pd from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split # Load data into a Pandas DataFrame data = pd.read_csv("data.csv") # Split the data into features (X) and target variable (y) X = data[["PassengerId"]] y = data["Survived"] # Split the data into training and test sets X.. 2023. 2. 4.
스테이블 디퓨전(Stable Diffusion)에 대해서 알아봅니다. - FAQ 답변, 기본편 Stable Diffusion 모델은 무엇에 대해 학습되었습니까? Stable Diffusion의 기본 데이터 세트는 LAION 5b https://laion.ai/blog/laion-5b/의 2b 영어 레이블 하위 집합으로, 독일 자선 단체인 LAION에서 만든 일반적인 인터넷 크롤링입니다. Stable Diffusion 생성 이미지 사용에 대한 저작권은 무엇입니까? AI로 생성된 이미지와 저작권의 영역은 복잡하며 관할권마다 다를 수 있습니다. 아티스트가 훈련 데이터에 자신의 작업을 포함하도록 옵트인 또는 옵트아웃할 수 있습니까? LAION 5b 모델 데이터에 대한 옵트인 또는 옵트아웃이 없었습니다. 인터넷의 언어-이미지 연결을 일반적으로 표현하기 위한 것입니다. Stable Diffusion Onli.. 2023. 2. 1.
728x90
반응형