Chủ đề công nghệ hiện nay chúng ta sẽ tìm hiểu về Computer Vision – một trong những loại AI mạnh mẽ tân tiến và hấp dẫn nhất với tên thường gọi thị giác máy tính. Bài viết này sẽ cho bạn một cái nhìn tổng quan thị giác máy tính là gì, nó hoạt động thế nào và tại sao nó là một trong những xu hướng của thời đại.
Computer Vision – Thị giác máy tính là gì?

Thị giác máy tính (Computer Vision) là một trong những lĩnh vực hot nhất của khoa học máy tính và nghiên cứu trí tuệ nhân tạo. Dù chúng vẫn chưa thể cạnh tranh với sức mạnh thị giác của mắt người, đã có rất nhiều ứng dụng hữu ích được tạo ra khai thác tiềm năng của chúng.
Khi bạn nhìn vào hình ảnh sau đây, bạn sẽ thấy người, vật thể và các tòa nhà. Nó mang đến những ký ức về những trải nghiệm trong quá khứ, những tình huống tương tự bạn gặp phải. Đám đông đang đối mặt cùng hướng và giơ điện thoại lên, điều này cho bạn biết rằng đây là một loại sự kiện. Người đứng gần máy ảnh đang mặc áo thun gợi ý về sự kiện có thể xảy ra. Khi bạn nhìn vào các chi tiết nhỏ khác, bạn có thể suy ra nhiều thông tin hơn từ hình ảnh.
Ảnh của Joshua J. Cotten
Nhưng đối với máy tính, hình ảnh này giống như tất cả các hình ảnh khác, đó là một mảng các pixel, các giá trị số đại diện cho các sắc độ của màu đỏ, xanh lá cây và xanh dương. Một trong những thách thức mà các nhà khoa học máy tính phải vật lộn từ những năm 1950s là tạo ra những cỗ máy có thể hiểu được hình ảnh và video như con người. Lĩnh vực thị giác máy tính từ đó đã trở thành một trong những lĩnh vực nghiên cứu hot nhất về khoa học máy tính và trí tuệ nhân tạo.
Tại sao thị giác máy tính lại cần thiết
Thị giác máy tính cho phép các máy tính cũng như robot, các phương tiện điều khiển từ máy tính và mọi thứ từ nhà máy, thiết bị nông trại đến xe hơi và máy bay có thể thực hiện một số hoạt động tự động, nó hoạt động một cách hiệu quả, thậm chí an toàn hơn.
Tầm quan trọng của nó đã trở nên rõ ràng hơn trong một thời đại kỹ thuật số. Chúng ta đã nhìn thấy được ứng dụng công nghệ này qua việc hỗ trợ người dùng tổ chức và truy cập vào bộ sưu tập hình ảnh của họ mà không cần gắn thẻ tag hoặc đánh dấu trong Google Photos.
Nhưng điều đáng nói làm thế nào nó vẫn duy trì liên tục khi mà số lượng hình ảnh được chia sẻ mỗi ngày lên đến hàng tỷ. Với con người thao tác thủ công là điều không thể làm được.
Một nghiên cứu vào năm ngoái của dịch vụ in ảnh Photoworld đã cho ra một số liệu như sau một người sẽ mất đến 10 năm để có thể xem qua tất cả hình ảnh được chia sẻ trên snapchat (chỉ trong 1 giờ) chưa đề cập đến việc phân loại. Và dĩ nhiên trong 10 năm đó thì số lượng ảnh tương ứng cũng tăng theo cấp số nhân. Điều này cho thấy thế giới ngày nay tràn ngập những hình ảnh kỹ thuật số và chúng ta cần những công nghệ máy tính này mới có thể xử lý được tất cả – nó đã vượt qua khả năng mà con người không thể xử lý được.
Ứng dụng của thị giác máy tính trong thực tiễn
Phát hiện các khiếm khuyết
Đây có lẽ là ứng dụng phổ biến nhất của thị giác máy tính. Cho đến bây giờ thì việc phát hiện ra các yếu tố bị lỗi thường được tiến hành bởi những người giám sát chỉ định và mở rộng hơn họ không thể nào kiểm soát được toàn bộ cả một quy trình hệ thống được.
Với thị giác máy tính, chúng ta có thể kiểm tra tất cả các lỗi nhỏ nhất từ vết nứt kim loại, lỗi sơn, bản in xấu, có kích thước nhỏ hơn 0,05mm. Việc xử lý này còn nhanh và tốt hơn mắt thường của con người gấp nhiều lần. Thuật toán này được thiết kế và đào tạo đặc biệt cho từng ứng dụng cụ thể thông qua hình ảnh có khiếm khuyết và không có khuyết tật.
Trình đọc tự động
Nếu bạn đã từng sử dụng ứng dụng Google translate, bạn có thể đã phát hiện ra khả năng trỏ camera điện thoại thông minh của bạn vào văn bản từ bất kỳ số ngôn ngữ nào và dịch nó sang ngôn ngữ khác trên màn hình gần như ngay lập tức. Sử dụng thuật toán nhận dạng ký tự (OCR) để trích xuất thông tin, cụ thể là nhận dạng ký tự quang học – cho phép một bản dịch chính xác sau đó chuyển thành lớp phủ lên văn bản thực.
>>> Xem thêm: 5 tips lập trình nhanh hơn giúp bạn có cuộc sống thoải mái hơn
Vận hành tự động
Có lẽ bạn đã thấy trên tivi những chiếc xe không người lái, lĩnh vực này phụ thuộc rất nhiều vào Computer vision và Deep learning. Mặc dù chưa đến thời điểm thay thế hoàn toàn người lái, công nghệ xe tự hành đã tiến bộ đáng kể trong vài năm qua.
Công nghệ AI phân tích dữ liệu thu thập được từ hàng triệu người lái xe, học hỏi từ hành vi lái xe để tự động tìm làn đường, ước tính độ cong đường, phát hiện các mối nguy hiểm và giải thích các tín hiệu và tín hiệu giao thông.
>>> Xem thêm: Tư duy lập trình là gì? Những điều bạn cần biết
Xử lí dữ liệu
Để hỗ trợ con người thực hiện các nhiệm vụ nhận dạng và tổ chức thông tin, các công cụ Computer Vision và mô hình Deep Learning đã được đưa vào nghiên cứu, đòi hỏi khối lượng dữ liệu lớn được dán nhãn. Khi các thuật toán Deep Learning phát triển, chúng chủ yếu thay thế quy trình gắn thẻ thủ công thông qua một phương pháp tiếp cận được gọi là nghiên cứu dữ liệu đám đông – thu thập theo thời gian thực tự động và gắn thẻ dữ liệu do các chuyên gia tạo ra và từ đó máy học sẽ bắt đầu quy trình nhận dạng các đối tượng.
>>> Xem thêm: Cách lập trình robot: Hướng dẫn lập trình cho người mới bắt đầu
Các thư viện mã nguồn mở
Chúng ta có thể tận dụng những thành quả của cộng đồng mã nguồn mở để áp dụng cho ứng dụng thị giác máy tính của mình. Hiện nay trên thế giới có rất nhiều thư viện mã nguồn mở cho ta sử dụng, như:
- Intel OpenCV
- CMCVision
- ImLib 3D
- ImaLab….
Đó là những thông tin cơ bản về thị giác máy tính và ứng dụng của nó mà mình muốn chia sẻ. Mình mong rằng, những thông tin cơ bản này, giúp các bạn hiểu thêm về một lĩnh vực đang được quan tâm và phát triển hiện nay.
Kết
Hy vọng bài viết trên đã giải thích cho bạn hiểu rõ về thuật ngữ thị giác máy tính là gì và tính ứng dụng của nó. Nếu thấy hay bạn có thể chia sẻ và tiếp tục đọc thêm các bài viết hữu ích khác của chúng tôi nhé !
Nhật Minh – Tổng hợp và bổ sung
Nguồn: movan.vn, thegioimaychu.vn, longvan.net, viblo.asia
Bình luận về chủ đề post