Sử dụng REGEXEXTRACT trong Google Sheets

Video google sheet regex extract

Publié le 21 janvier 2021 par Jake Sheridan

Google Sheets regex functions rất hữu ích khi bạn quản lý một lượng lớn dữ liệu. Chúng dựa trên các biểu thức chính quy (regex) được sử dụng phổ biến bởi các nhà lập trình, nhưng cũng hữu ích cho người dùng Google Sheets. Biểu thức chính quy được sử dụng để tìm kiếm và tìm thấy thông tin cụ thể. Biểu thức chính quy được xây dựng từ các quy tắc và bạn có thể biểu diễn bất cứ điều gì với chúng.

REGEXEXTRACT là gì?

Cú pháp của hàm là:

=REGEXEXTRACT(text, biểu_thức_chính_quy)

Cú pháp có thể có vẻ đáng sợ ban đầu, nhưng bạn có thể tìm nhiều tài liệu trực tuyến giúp bạn xây dựng các biểu thức chính quy của riêng bạn. Một khi bạn đã hiểu cách sử dụng nó, đây là một công cụ thực sự mạnh mẽ giúp tăng tốc quá trình làm việc của bạn.

Bạn vẫn có thể sử dụng nó để tìm kiếm các đối tượng khớp chính xác, nhưng sức mạnh thực sự của chức năng này nằm trong các ký tự đặc biệt cho phép bạn tùy chỉnh tìm kiếm của mình.

Hãy xem ví dụ sau. Một biểu thức chính quy thường có dạng: (trình_biên_dịch_A-Z) có nghĩa là:

  • A-Z: các chuỗi con mà chúng ta đang tìm kiếm bắt đầu bằng một chữ cái viết hoa.
  • w: đây phải là một từ (không phải là một số hoặc không gian).
  • +: có thể được theo sau bởi 1 ký tự hoặc nhiều hơn.

Khi nào sử dụng REGEXMATCH cho marketing?

  • Trích xuất dữ liệu cụ thể từ một danh sách.
  • Trích xuất địa chỉ email hoặc liên kết từ một văn bản.
  • Trích xuất tên miền từ một URL.

Cách sử dụng hàm REGXMATCH trong Google Sheets

Tham số đầu tiên, text, là văn bản đầu vào. Tham số thứ hai, biểu_thức_chính_quy, là biểu thức phải khớp. Phần đầu của văn bản khớp với biểu thức này sẽ được trả về.

Hàm này cho phép bạn trích xuất một phần của một chuỗi ký tự. Nó chỉ hoạt động với văn bản.

Giả sử bạn có một danh sách các URL và bạn cần trích xuất một số từ chúng. Ví dụ, các URL chứa ngôn ngữ của các trang và bạn muốn trích xuất những ngôn ngữ đó:

Trong regex, ký tự | (pipe) đại diện cho Phép Tìm kiếm logic. Bạn có thể tìm kiếm văn bản cụ thể bằng cách kết nối tất cả các từ có thể với mối quan hệ Phép Tìm Kiếm. Công thức này sẽ tìm kiếm từ tiếng Tây Ban Nha hoặc tiếng Pháp hoặc tiếng Đức và cứ như vậy.

Hàm để thực hiện điều này:

=REGEXEXTRACT(A2, "espagnol|français|allemand|anglais|italien|néerlandais")

Không quan trọng từ đó xuất hiện ở đâu trong văn bản, hàm sẽ tìm kiếm và trả về nó như một kết quả của hàm. Nó đọc chuỗi nguồn từ trái sang phải và trả về kết quả chính xác đầu tiên nó tìm thấy. Ví dụ, nó tìm thấy “italien” đầu tiên trong hàng thứ năm và sau đó bỏ qua việc cũng có “anglais”.

Ví dụ về công thức REGEXEXTRACT

Cũng thường xuyên trích xuất các tên miền cơ bản từ đường dẫn URL đầy đủ. Hàm REGEXEXTRACT cũng phù hợp với công việc này.

=REGEXEXTRACT(A2,"^(?:https?://)?([^:/n]+)")

Biểu thức chính quy ở đây phức tạp hơn nhiều, nhưng bạn có thể học cơ bản để quen thuộc với các biểu thức như vậy, hoặc bạn có thể đơn giản là tìm kiếm trên Google và viết chúng theo từng bước.

Biểu thức chính quy này loại bỏ “https://” sau đó loại bỏ bất kỳ thứ gì sau ký tự đầu tiên “/”. Do đó, phần còn lại chỉ là tên miền cơ bản.

Tóm tắt

REGEXEXTRACT có thể giúp bạn tiết kiệm rất nhiều thời gian. Một khi bạn đã hiểu cách sử dụng nó, bạn có thể thay thế hầu hết các hàm LEFT, RIGHT, MID hoặc FIND của bạn bằng hàm regex này.

Publié sur Crawlan.com

Source

Related posts