jinjini000 님의 블로그

내가 보려고 정리한 Qwen3-ASR /with GPT

Qwen3-ASR 모델 원리 상세 가이드app.py에서 사용된 Qwen/Qwen3-ASR-1.7B 모델의 동작 원리를 단계별로 설명한다.목차모델 개요아키텍처: 오디오 인코더 + LLM 디코더오디오 전처리 파이프라인Mel-spectrogram → 오디오 토큰 변환LLM 디코더의 Autoregressive 생성vLLM 백엔드와 KV 캐시스트리밍 전사 메커니즘슬라이딩 윈도우 원리주요 파라미터 해설토큰 수 추정 계산1. 모델 개요Qwen3-ASR은 Alibaba Qwen 팀이 공개한 자동 음성 인식(Automatic Speech Recognition) 모델 패밀리다.항목내용모델 IDQwen/Qwen3-ASR-1.7B파라미터 수약 17억 (1.7B)가중치 정밀도BF16 (bfloat16)지원 언어30개 언어 + ..

format_list_bulleted 카테고리 없음
· 2026. 4. 10.

컴퓨터 비전과 Object Detection

1. 컴퓨터 비전 개요컴퓨터 비전은 이미지나 영상에서 객체 검출, 이미지 분류, 얼굴 인식, 장면 이해 등의 작업을 수행한다. 인간의 시각 인식을 모방하는 것이 목표이며, 현재는 합성곱 신경망(CNN)이 핵심 구조로 자리 잡았다.주요 응용 도메인자율주행: 차선, 보행자, 신호등 인식의료 영상 분석: CT/MRI 기반 질병 진단보안 감시: 실시간 객체 및 이상 행동 감지산업 검사: 불량품 탐지주요 프레임워크프레임워크특징OpenCV이미지 전처리 및 전통적 비전 처리에 특화된 C++/Python 라이브러리TensorFlowGoogle 개발, 대규모 배포 및 모바일 최적화에 강점PyTorch직관적 API, 동적 그래프, 연구 및 실험에 적합UltralyticsYOLO 계열 모델에 특화된 고수준 학습/추론 API..

format_list_bulleted KDT 수업/AI 수업정리
· 2026. 4. 8.

내가 보려고 정리한 OpenCV 정리 (3) with GPT

OpenCV에서 관심영역, 이진화, 기하 변환을 다루는 방식여기서는 단일 영상 처리 기법 몇 개를 따로따로 익히는 수준을 넘어서, 관심영역 추출, 임계값 기반 분리, 아핀 변환, 투시 변환까지 하나의 흐름으로 정리한다. 공통점은 모두 이미지 배열의 좌표계를 직접 다룬다는 점이며, 차이는 픽셀을 선택하느냐, 분류하느냐, 재배치하느냐에 있다. 특히 이번 정리는 메서드와 함수가 입력을 어떻게 받아 어떤 결과로 바꾸는지, 그리고 shape이 어디서 유지되고 어디서 바뀌는지에 초점을 둔다.1. 관심영역 ROI는 무엇인가관심영역은 전체 이미지 중 실제로 다루고 싶은 부분만 잘라내어 별도로 처리하는 방식이다. 이미지 전체를 매번 대상으로 삼으면 연산량이 불필요하게 커지고, 문제의 핵심이 되는 부분만 분리하기도 어렵다..

format_list_bulleted KDT 수업/파이썬 공부
· 2026. 4. 1.

내가 보려고 정리한 OpenCV 정리 (2) with GPT

1. 픽셀 단위 덧셈, 뺄셈, 곱셈, 나눗셈의 의미픽셀 단위 산술 연산은 영상 처리의 가장 기본적인 출발점이다. 이미지의 각 픽셀은 정수값으로 저장되며, 그 값에 일정한 수를 더하거나 빼면 밝기와 대비가 달라진다. 흑백 영상에서는 하나의 채널 값만 바뀌고, 컬러 영상에서는 B, G, R 각 채널이 독립적으로 바뀐다.이 연산이 중요한 이유는 대부분의 전처리가 결국 픽셀값을 재배치하는 과정이기 때문이다. 밝기 보정, 색 보정, 마스킹, 합성, 명암 대비 향상은 표현 방식만 다를 뿐 결국 픽셀값 조작으로 귀결된다.다음 구성은 그 기초를 가장 직접적으로 보여준다. 하나의 흑백 이미지와 하나의 컬러 이미지를 읽은 뒤, 밝기 증가, 채널별 가감산, 배율 확대와 축소를 수행한다.import cv2img1 = cv2...

format_list_bulleted KDT 수업/파이썬 공부
· 2026. 4. 1.

내가 보려고 정리한 OpenCV 정리 with GPT

1. OpenCV 환경 확인과 전체 코드의 주제OpenCV는 컴퓨터 비전 작업을 위한 라이브러리지만, 실제 코드의 시작점은 복잡한 모델이 아니라 입력과 출력이다. 이미지가 어떻게 메모리에 올라가는지, 화면에 무엇이 표시되는지, 키보드나 마우스 이벤트가 어떤 식으로 들어오는지, 비디오 프레임이 반복문 안에서 어떻게 순차적으로 처리되는지를 이해해야 이후의 전처리, 검출, 추론 코드도 자연스럽게 읽힌다.가장 먼저 등장하는 코드는 OpenCV 버전을 출력하는 아주 짧은 예제다.import cv2print("OpenCV version:", cv2.__version__)# 출력 예시# OpenCV version: 4.x.x이 코드는 단순해 보이지만 두 가지 의미가 있다.첫째, cv2 모듈이 정상적으로 설치되었는지 ..

format_list_bulleted KDT 수업/파이썬 공부
· 2026. 3. 27.

GPT와 함께 배우는 CNN

이미지 분류를 처음 공부할 때 가장 먼저 부딪히는 질문은 하나다. 왜 일반적인 완전연결 신경망보다 CNN이 이미지에 더 잘 맞는가 하는 점이다. 이 질문에 답하려면 단순히 합성곱 계층이 있다 정도로는 부족하다. 이미지가 어떤 형태의 숫자 데이터로 표현되는지, 필터가 무엇을 학습하는지, 스트라이드와 패딩이 출력 크기에 어떤 영향을 주는지, 그리고 마지막에 왜 평탄화와 선형 계층이 필요한지까지 하나의 흐름으로 이해해야 한다.CNN은 이미지의 공간 구조를 보존하면서 특징을 추출하도록 설계된 모델이다. 픽셀을 일렬로 펼쳐서 처리하는 방식과 달리, 가까운 픽셀 사이의 관계를 유지한 채 작은 영역을 반복적으로 훑으면서 패턴을 찾는다. 이 구조 덕분에 에지, 질감, 모서리 같은 저수준 특징부터 더 복잡한 형태까지 단..

format_list_bulleted AI 공부
· 2026. 3. 24.