cheerio 예제

이 정보를 추출하는 프로세스를 웹을 “스크래핑”이라고 하며 다양한 응용 프로그램에 유용합니다. 예를 들어 모든 검색 엔진은 웹 스크래핑을 사용하여 검색 결과에 대한 웹 페이지를 인덱싱합니다. 또한 반복적인 정보 수집 작업을 자동화하려는 경우 자체 응용 프로그램에서 웹 스크래핑을 사용할 수도 있습니다. 모든 API 예제에서 사용할 HTML 태그입니다. 웹 스크래핑이 현재 기업에서 사용되고 있는 실제 비즈니스 사례가 많이 있습니다. 그리고 이것은 Node.js에서 Cheerio에 의해 웹 스크랩에 대한 메모입니다. 위의 코드는 CSS 선택기 #example 사용하여 “예제”의 ID가 있는 요소를 가져옵니다. jQuery의 텍스트 메서드는 요소 내부의 텍스트만 추출합니다( 태그가 출력에서 사라졌습니다). Cheerio를 사용하여 페이지에 설명된 모든 URL을 추출하려면 공식 설명서에서 Cheerio API에 대한 자세한 정보를 확인할 수 있습니다. 내가 그것을 테스트 할 거야 예는 내 자신의 개인 웹 사이트가 될 것입니다, 그는 여전히 개발 자체를 통해 가는하지만 그것을 체크 아웃! 이 패턴을 사용하여 소스 코드에서 URL을 추출할 수 있습니다. 시작하려면 Cheerio 라이브러리를 프로젝트에 설치해 보겠습니다: Cheerio는 개발자가 jQuery와 같은 구문을 사용하여 웹 페이지를 해석하고 분석하는 데 도움이 되는 Node.js 라이브러리입니다. 이 게시물에서는 Cheerio를 사용하여 웹을 긁는 방법을 설명합니다. ButterCMS API 설명서를 예로 들며 Cheerio를 사용하여 웹 페이지에서 모든 API 끝점 URL을 추출합니다.

이제 이전의 응답 데이터를 사용하여 Cheerio 인스턴스를 만들고 다운로드한 웹 페이지를 긁어낼 수 있습니다. 이것은 Cheerio의 사전 1.0 릴리스에서 업그레이드 하는 경우 (htmlparser2에 의존), 잘못 된 태그를 처리 하는 사람들을 위해 (htmlparser2 더 용서 하기 때문에), 또는 성능에 중요 한 상황에서 작동 하는 사람들에 대 한 (때문에 htmlparser2는 경우에 따라 더 빠를 수 있습니다). “더 용서”는 htmlparser2가 웹 브라우저에서 관찰하는 표준과 항상 일치하지 않는 오류 수정 메커니즘을 가지고 있음을 의미합니다. 이 동작은 HTML이 아닌 콘텐츠를 구문 분석할 때 유용할 수 있습니다. 믿을 수 없을만큼 유연한 : Cheeriopars5 파서 주위에 감싸고 선택적으로 @FB55 용서 htmlparser2를 사용할 수 있습니다. Cheerio는 거의 모든 HTML 또는 XML 문서를 구문 분석할 수 있습니다. 당신은 마지막으로 노드와 Cheerio와 프로그램을 작성하기 전에 DOM과 함께 놀기 위해 브라우저를 사용할 수 있습니다. 포스터 이미지는 attribs 속성을 사용하여 액세스하는 src 특성에 의해 제공됩니다. “@._”는 이미지의 품질을 제공합니다. 주어진 예제에서 최상의 품질이 사용됩니다.

❤ 친숙한 구문: Cheerio는 코어 jQuery의 하위 집합을 구현합니다. Cheerio는 jQuery 라이브러리에서 모든 DOM 불일치 및 브라우저 cruft를 제거하여 진정으로 멋진 API를 공개합니다. Cheerio는 Node.js와 함께 jQuery를 활용하는 다른 웹 사이트를 웹 스크랩하고 jQuery 라이브러리에서 모든 DOM 불일치 및 브라우저를 제거하는 데 사용할 수 있습니다. 자세한 내용은 아래 링크를 참조하십시오: 기본적으로 html은 일부 태그를 열어 둡니다. 대신 유효한 XML 문서를 렌더링할 수 있습니다. 예를 들어 다음과 같은 XML 스니펫을 구문 분석할 수 있습니다. 사실, 방금 작성한 코드를 사용하면 페이지 다운로드 및 로드를 금지하면 브라우저에서도 완벽하게 작동합니다.