Это первый урок из цикла, посвященного библиотеке pandas. Данный цикл будет входить в большую группу обучающих материалов, тематику которых можно определить как “Машинное обучение и анализ данных”. pandas – это удобный и быстрый инструмент для работы с данными, обладающий большим функционалом.
Что такое pandas?
Если очень кратко, то pandas – это библиотека, которая предоставляет очень удобные с точки зрения использования инструменты для хранения данных и работе с ними. Если вы занимаетесь анализом данных или машинным обучением и при этом используете язык Python, то вы просто обязаны знать и уметь работать с pandas.
pandasвходи в группу проектов, спонсируемых numfocus. Numfocus – это организация, которая поддерживает различные проекты, связанные с научными вычислениями.
Официальный сайт pandas находится здесь. Стоит отметить, что документация по этому продукту очень хорошая. Если вы знаете английский язык, то для вас не будет большой проблемой разобраться с pandas.
Особенность pandas состоит в том, что эта библиотека очень быстрая, гибкая и выразительная. Это важно, т.к. она используется с языком Python, который не отличается высокой производительностью. pandas прекрасно подходит для работы с одномерными и двумерными таблицами данных, хорошо интегрирован с внешним миром – есть возможность работать с файлами CSV, таблицами Excel, может стыковаться с языком R.
Установка pandas
Для проведения научных расчетов, анализа данных или построения моделей в рамках машинно обучения для языка Python существуют прекрасное решение – Anaconda. Anaconda – это пакет, который содержит в себе большой набор различных библиотек, интерпретатор языка Python и несколько сред для разработки. Подробно об установке пакета Anaconda написано в этой статье.
pandas присутствует в стандартной поставке Anaconda. Если же его там нет, то его можно установить отдельно. Для этого стоит воспользоваться пакетным менеджером, который входит в состав Anaconda, который называется conda. Для его запуска необходимо перейти в каталог [Anaconda install path]\Scripts\ в Windows. В операционной системе Linux, после установки Anaconda менеджер conda должен быть доступен везде.
Введите командной строке:
>conda install pandas
В случае, если требуется конкретная версия pandas, то ее можно указать при установке.
>conda install pandas=0.13.1
При необходимости, можно воспользоваться пакетным менеджером pip, входящим в состав дистрибутива Python.
>pip install pandas
Если вы используете Linux, то ещё одни способ установить pandas – это воспользоваться пакетным менеджером самой операционной системы. Для Ubuntu это выглядит так:
>sudo apt-get install python-pandas
После установки необходимо проверить, что pandas установлен и корректно работает. Для этого запустите интерпретатор Python и введите в нем следующие команды.
>>> import pandas as pd >>> pd.test()
В результате в окне терминала должен появиться следующий текст:
Running unit tests for pandas pandas version 0.18.1 numpy version 1.11.1 pandas is installed in c:\Anaconda3\lib\site-packages\pandas Python version 3.5.2 |Anaconda 4.1.1 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)] nose version 1.3.7 .......... ---------------------------------------------------------------------- Ran 11 tests in 0.422s OK
Это будет означать, что pandas установлен и его можно использовать.
P.S.
Все уроки по библиотеке Pandas собраны в книге “Pandas. Работа с данными”.
что делать если тест выдал такой результат?
12 failed, 14997 passed, 1193 skipped, 14 xfailed, 2 xpassed, 23 warnings in 753.69 seconds
Думаю ничего в этом страшного нет, это означает, что часть тестов прошла с ошибками, часть была пропущена и т.п. Просто попробуйте запустить примеры из следующей статьи, посвященной pandas.
Этот тест под правами амина нужно запускать, тогда ошибок не будет, он там чего-то пытается скачать и установить в либы.
Здравствуйте!
С Pandas мучаюсь уже неделю. Ставлю и удаляю по кругу… PyCharm, Аnaconda… Но в скрипте дальше “import pandas” не проходит. Скрипт падает с “Process finished with exit code -1073741819 (0xC0000005)”….
В PyCharm просто в терминале пропишите pip install pandas
“В PyCharm просто в терминале пропишите pip install pandas” (с)
SyntaxError: invalid syntax
Здравствуйте!
Получил вот такую ошибку “Process finished with exit code -1073741819 (0xC0000005)” буквально при “import pandas”… Как побороть эту проблему?
Добрый день!
Вы работаете с Windows или Linux? Какая версия ОС у вас используется? Я могу попробовать на виртуалке развернуть и на чистой инсталляции проверить.
И у Вас проблема с сайтом, комментарии не оставляются… 🙁
Добрый день!
Просто перед тем как попасть на сайт комментарии проходят модерацию))