Semalt - Веб баракчаларды кантип скраптоого болот?

Кооз Шорпо - бул Python китепканасы, ал XML жана HTML документтеринен талдоо дарагын түзүп, веб-баракчаларды кыртыш үчүн кеңири колдонулат. Веб-барактарды жана веб-баракчалардан маалыматтарды алуу ыкмасы маалыматтарды талдоо жана башкаруу жаатында кеңири колдонулат. Көпчүлүк учурда, Python программалоо тили - бул маалымат илиминин шарты.

Python 3 сизде маалыматтарды башкаруу долбооруна кайрыла турган кыргыч куралдар жана модулдар бар. Учурда Beautiful Soup 4 катары иштөөдө, бул модуль Python 3 жана Python 2.7 менен шайкеш келет. Beautiful Soup 4 модулу жабык эмес тег шорпо үчүн талдоо дарагын түзө алат. Бул окуу куралында, сиз баракты кырдырып жана кырылган маалыматтарды CSV файлына жазууну үйрөнөсүз.

Баштоо

Баштоо үчүн, компьютериңизде серверди же жергиликтүү Python коддоо чөйрөсүн орнотуңуз. Ошондой эле, компьютериңизге Beautiful Soup and Requests модулун орнотушуңуз керек. Эки модул менен иштөөнү билүү дагы бир өбөлгө. HTML белгилөө жана түзүлүшү менен таанышуу дагы бир артыкчылык болуп саналат.

Маалыматтарыңызды түшүнүү

Бул контекстте, Улуттук көркөм сүрөт галереясынан алынган чыныгы маалыматтар колдонулат. Бул кооз шорпону 4 кантип колдонууну түшүнүүгө жардам берет. Улуттук көркөм сүрөт галереясы болжол менен 13000 сүрөтчүнүн жасаган 120,000 бөлүктөн турат. Көркөм сүрөт Вашингтон, АКШда жайгашкан.

Beautiful Шорпонун жардамы менен веб маалыматтарды казып алуу татаал эмес. Мисалы, Z тамгасына көңүл бурсаңыз, тизмедеги ысымды белгилеп, белгилеп алыңыз. Бул учурда, биринчи аты - Забалия, Никкола. Ылайыктуулук үчүн барактардын санын жана ошол беттеги акыркы сүрөтчүнүн атын жазыңыз.

Суранычтарды жана Beautiful Шорпонун китепканасын кантип импорттоого болот

Китепканаларды импорттоо үчүн, Python 3 программалоо чөйрөсүн жандандырыңыз. Программалоо чөйрөңүз менен бир каталогдо экениңизди текшериңиз. Баштоо үчүн төмөнкү буйрукту аткарыңыз. my_env / бин / иштетүү.

Жаңы файл түзүп, Beautiful Soup жана Requests китепканаларын импорттой баштаңыз. Сурамдар китепканасы сизге HTTP программасын Python программаларында окулуучу форматта колдонууга мүмкүнчүлүк берет. Кереметтүү Шорпо, тескерисинче, барактарды тез кыртыш үчүн иштейт. Сулуу шорпону импорттоо үчүн bs4 колдонуңуз.

Веб баракчаны кантип чогултуу жана талдоо

Сурамдарды колдонуу менен сиздин биринчи барактын URL дареги чогултулат. Биринчи барактын URL дареги өзгөрүлмө баракка жүктөлөт. Requests-тен BeautifulSoup объектисин куруп, Python талдоочусунан объектти талдаңыз.

Бул окуу куралынын максаты шилтемелерди жана сүрөтчүлөрдүн аттарын чогултуу болуп саналат. Мисалы, сиз сүрөтчүлөрдүн даталарын жана улуттарын чогулта аласыз. Windows колдонуучулары үчүн сүрөтчүнүн ысымын оң баскыч менен чыкылдатыңыз. Бул учурда Забалия, Никколаны колдонуңуз. Mac OS колдонуучулары үчүн "CTRL" таптап, атын чыкылдатыңыз. Веб иштеп чыгуучулардын куралдарына кирүү үчүн, экраныңыздагы калкып чыкмаларды карап турган "Элементти текшерүү" менюсун чыкылдатыңыз. Ыкчам Шорпо дарагын тез талдоо үчүн сүрөтчүнүн ысымдарын жазып чыгыңыз.

Төмөнкү шилтемелер алынып салынууда

Веб баракчаңыздагы төмөнкү шилтемелерди алып салуу үчүн, DOM элементин оң баскыч менен чыкылдатып текшериңиз. Сиз шилтемелер HTML таблицасынын астында экендигин аныктайсыз. Beautiful Шорпонун жардамы менен, талдоо дарагынан белгилерди алып салуу үчүн "ажыратуу ыкмасын" колдонуңуз.

Мазмунду тегден кантип алса болот

Шилтеме тегин толугу менен басып чыгаруунун кажети жок, тэгден материалды алып салуу үчүн Beautiful Шорпону колдонуңуз. Beautiful Soup 4 колдонуп, сүрөтчүлөр менен байланышкан URL'дерди жазсаңыз болот.

Кыйылган маалыматтарды CSV файлына жаздыруу

CSV файлы түзүмдүк маалыматты жөнөкөй текстте сактоого мүмкүндүк берет, формат көбүнчө маалымат баракчаларында колдонулат. Python'до жөнөкөй текст файлдары менен иштөө боюнча билим сунушталат.

Веб маалыматтарды алуу баракчаларды кыруу жана маалымат алуу үчүн колдонулат. Маалыматтарды чыгарып жаткан веб-сайттарга көңүл буруңуз. Айрым динамикалык веб-сайттар өз сайттарында веб-маалыматтарды чыгарууну чектейт. Баракты Beautiful Shoup жана Python 3 менен кырып салуу оңой.