Изучаем pandas. Урок 1. Введение в pandas и его установка

Это первый урок из цикла, посвященного библиотеке pandas. Данный цикл будет входить в большую группу обучающих материалов, тематику которых можно определить как “Машинное обучение и анализ данных”. pandas – это удобный и быстрый инструмент для работы с данными, обладающий большим функционалом.

  1. Что такое pandas?
  2. Установка pandas

Что такое pandas?

Если очень кратко, то pandas – это библиотека, которая предоставляет очень удобные с точки зрения использования инструменты для хранения данных и работе с ними. Если вы занимаетесь анализом данных или машинным обучением и при этом используете язык Python, то вы просто обязаны знать и уметь работать с pandas.

pandasвходи в группу проектов, спонсируемых numfocus. Numfocus – это организация, которая поддерживает различные проекты, связанные с научными вычислениями.

Официальный сайт pandas находится здесь. Стоит отметить, что документация по этому продукту очень хорошая. Если вы знаете английский язык, то для вас не будет большой проблемой разобраться с pandas

Особенность pandas состоит в том, что эта библиотека очень быстрая, гибкая и выразительная. Это важно, т.к. она используется с языком Python, который не отличается высокой производительностью. pandas прекрасно подходит для работы с одномерными и двумерными таблицами данных, хорошо интегрирован с внешним миром – есть возможность работать с файлами CSV, таблицами Excel, может стыковаться с языком R.

Установка pandas

Для проведения научных расчетов, анализа данных или построения моделей в рамках машинно обучения для языка Python существуют прекрасное решение – Anaconda. Anaconda – это пакет, который содержит в себе большой набор различных библиотек, интерпретатор языка Python и несколько сред для разработки. Подробно об установке пакета Anaconda написано в этой статье.

pandas присутствует в стандартной поставке Anaconda. Если же его там нет, то его можно установить отдельно. Для этого стоит воспользоваться пакетным менеджером, который входит в состав Anaconda, который называется conda. Для его запуска необходимо перейти в каталог [Anaconda install path]\Scripts\ в Windows. В операционной системе Linux, после установки Anaconda менеджер conda должен быть доступен везде.

Введите командной строке:

>conda install pandas

В случае, если требуется конкретная версия pandas, то ее можно указать при установке.

>conda install pandas=0.13.1

При необходимости, можно воспользоваться пакетным менеджером pip, входящим в состав дистрибутива Python.

>pip install pandas

Если вы используете Linux, то ещё одни способ установить pandas – это воспользоваться пакетным менеджером самой операционной системы. Для Ubuntu это выглядит так:

>sudo apt-get install python-pandas

После установки необходимо проверить, что pandas установлен и корректно работает. Для этого запустите интерпретатор Python и введите в нем следующие команды.

>>> import pandas as pd
>>> pd.test()

В результате в окне терминала должен появиться следующий текст:

Running unit tests for pandas
pandas version 0.18.1
numpy version 1.11.1
pandas is installed in c:\Anaconda3\lib\site-packages\pandas
Python version 3.5.2 |Anaconda 4.1.1 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)]
nose version 1.3.7
..........

----------------------------------------------------------------------
Ran 11 tests in 0.422s
OK

Это будет означать, что pandas установлен и его можно использовать.

P.S.

Все уроки по библиотеке Pandas собраны в книге “Pandas. Работа с данными”.

Книга: Pandas. Работа с данными

<<<Урок 2. Структуры данных Series и DataFrame

Изучаем pandas. Урок 1. Введение в pandas и его установка: 10 комментариев

  1. Дмитрий

    что делать если тест выдал такой результат?

    12 failed, 14997 passed, 1193 skipped, 14 xfailed, 2 xpassed, 23 warnings in 753.69 seconds

    1. writer

      Думаю ничего в этом страшного нет, это означает, что часть тестов прошла с ошибками, часть была пропущена и т.п. Просто попробуйте запустить примеры из следующей статьи, посвященной pandas.

    2. vasya_

      Этот тест под правами амина нужно запускать, тогда ошибок не будет, он там чего-то пытается скачать и установить в либы.

  2. Vit

    Здравствуйте!
    С Pandas мучаюсь уже неделю. Ставлю и удаляю по кругу… PyCharm, Аnaconda… Но в скрипте дальше “import pandas” не проходит. Скрипт падает с “Process finished with exit code -1073741819 (0xC0000005)”….

      1. Алексей

        “В PyCharm просто в терминале пропишите pip install pandas” (с)

        SyntaxError: invalid syntax

  3. Вит

    Здравствуйте!
    Получил вот такую ошибку “Process finished with exit code -1073741819 (0xC0000005)” буквально при “import pandas”… Как побороть эту проблему?

    1. writer Автор записи

      Добрый день!
      Вы работаете с Windows или Linux? Какая версия ОС у вас используется? Я могу попробовать на виртуалке развернуть и на чистой инсталляции проверить.

  4. Vit

    И у Вас проблема с сайтом, комментарии не оставляются… 🙁

    1. writer

      Добрый день!
      Просто перед тем как попасть на сайт комментарии проходят модерацию))

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *