%d0%a1%d0%ba%d1%80%d0%b0%d0%bf%d0%b8%d0%bd%d0%b3%2c%d0%b2%d0%b5%d0%b1-%d1%81%d1%82%d1%80%d0%b0%d0%bd%d0%b8%d1%86%2c%d1%81%2c%d0%bf%d0%be%d0%bc%d0%be%d1%89%d1%8c%d1%8e%2cpython%2c(pdf)%2c%d0%a4%d0%bb%d0%b8%d0%b1%d1%83%d1%81%d1%82%d0%b0%20

BeautifulSoup (библиотека bs4 ) — для парсинга HTML-кода.

🐍 Скрапинг страниц с Python: от поиска на Flibusta до PDF

Пишите в комментариях! 👇 from fpdf import FPDF pdf = FPDF() pdf

#Python #WebScraping #Flibusta #Programming #DataExtraction #PDF #Coding

Flibusta имеет структуру, где информация о книге (название, автор, описание) находится в определенных HTML-тегах. Сначала мы «забираем» страницу: Конвертация в PDF

Помните, что автоматизированный доступ к ресурсам вроде Flibusta должен быть умеренным. Слишком частые запросы могут привести к блокировке вашего IP. Рекомендуется использовать задержки ( time.sleep ) между запросами.

from fpdf import FPDF pdf = FPDF() pdf.add_page() # Важно: добавьте шрифт с поддержкой кириллицы pdf.add_font('DejaVu', '', 'DejaVuSansCondensed.ttf', unicode=True) pdf.set_font('DejaVu', '', 14) pdf.cell(200, 10, txt=f"Название: {title}", ln=True, align='C') pdf.multi_cell(0, 10, txt=f"Описание:\n{description}") pdf.output("book_info.pdf") Use code with caution. ⚠️ Этический момент id='main').find('p').text.strip() Use code with caution. 2.

import requests from bs4 import BeautifulSoup url = "https://flibusta.is" # Пример ссылки response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # Извлекаем название книги title = soup.find('h1', class_='title').text.strip() # Извлекаем описание description = soup.find('div', id='main').find('p').text.strip() Use code with caution. 2. Конвертация в PDF

%d0%a1%d0%ba%d1%80%d0%b0%d0%bf%d0%b8%d0%bd%d0%b3%2c%d0%b2%d0%b5%d0%b1-%d1%81%d1%82%d1%80%d0%b0%d0%bd%d0%b8%d1%86%2c%d1%81%2c%d0%bf%d0%be%d0%bc%d0%be%d1%89%d1%8c%d1%8e%2cpython%2c(pdf)%2c%d0%a4%d0%bb%d0%b8%d0%b1%d1%83%d1%81%d1%82%d0%b0%20

Links

Social-Media

Unsere Partner