Каталог курсов
Курсы High Tech
NEW Анализ данных с использованием Python
Описание курса
Продолжительность - 40 часов / 5 дней.
Расписание занятий подбираем по запросу для групп от трех человек одновременно.
Данный КУРС ОРИЕНТИРОВАН НА ПРАКТИКУ и позволит вам сразу приступить к работе с данными и построению моделей.
Data science — одна из самых горячих областей на сегодняшний день, а Python — один из самых популярных инструментов для анализа данных. В этом курсе вы узнаете, как применять свои навыки программирования для построения предиктивных моделей, визуализации данных и работы с нейросетями.
Цель курса
Получить начальные компетенции по инструментам и анализу данных на языке Python.
Аудитория
• программисты
• аналитики
Предварительная подготовка:
• Знания в рамках курса Программирование на языке Python. Уровень 1. Базовый курс
На курсе вы получите подготовку для:
• автоматизации сбора и обработки данных,
• ускорения анализа данных и составления на их основе прогнозов, стратегий, планов и рекомендаций.
Курс научит собирать информацию разных форматов, в том числе из интернета; создавать отчеты, обновляющиеся по расписанию
После окончания курса выпускники будут уметь:
• устанавливать и настраивать сборку пакетов и инструментов Anaconda для программирования на языке Python;
• пользоваться модулями NumPy, SciPy, Matplotlib, Pandas для решения стоящих перед ними задач на языке Python;
• строить несложные программы на языке Python в среде Jupyter Notebook;
• строить графики и визуализировать данные при помощи модуля Matplotlib;
• интерпретировать результаты выполнения кода;
• импортировать данные из файлов различных форматов и из интернета;
• строить простые линейные модели, используя модуль Scikit-learn
• создавать аналитические отчеты;
Программа курса
Модуль 1 "Знакомство с языком Python: обзор, примеры, области применения"
============================================================================================
1. Знакомство с языком Python: обзор, примеры, области применения
2. Краткий обзор популярных пакетов/модулей Python: NumPy, SciPy, Matplotlib, Pandas
3. Сборка Anaconda: установка, возможности
4. Работа с менеджером пакетов conda: окружение, установка пакетов
5. Среда программирования Jupyter Notebook: код, описание, оформление, презентация – все в одном. Запуск, создание первых программ, принцип работы REPL. Контекстная справка.
Лекция "Знакомство с языком Python: обзор, примеры, области применения. Краткий обзор популярных пакетов/модулей Python: NumPy, SciPy, Matplotlib, Pandas"
Практическая работа "Сборка Anaconda: установка, возможности. Работа с менеджером пакетов conda: окружение, установка пакетов"
Лабораторная работа "Создание conda-окружения, установка пакетов, создание и запуск простой программы"
Модуль 2 "Язык Python, синтаксис, типы данных, операторы, циклы, функции"
======================================================================================
1. Синтаксис Python, типы данных
2. Условные операторы, циклы, range, enumerate
3. Изменяемые типы: списки, словари
4. Функции и процедурное программирование
Лекция "Синтаксис Python, типы данных, операторы, циклы"
Практическая работа "Решение задач при помощи стандартных средств языка Python"
Лабораторная работа "Написать функцию, решающую некоторую задачу"
Модуль 3 "Модуль NumPy: работа с многомерными массивами и линейная алгебра"
=================================================================================================
1. Модуль NumPy: многомерные массивы. Типы элементов. Создание массивов. Сохранение/загрузка массивов
2. Принципы работы с массивами: element-wise ops, broadcasting, slicing, indexing, ufuncs
3. Важные функции для работы с массивами. Линейная алгебра
4. Примеры решения задач при помощи NumPy
Лекция "Модуль NumPy: многомерные массивы"
Практическая работа "Загрузка данных в массив и их обработка"
Лабораторная работа "Загрузка и фильтрация данных, вычисление производных значений"
Модуль 4 "Модуль Matplotlib: визуализация данных. Модуль SciPy – численные методы"
===============================================================================================
1. Модуль Matplotlib. Принцип работы: figure, axis.
2. Виды графиков: plot, scatter, bar, hist, contour, и др.
3. Цветовые карты, работа с изображениями как с массивами данных
4. Интерполяция (scipy.interpolate), интегрирование (scipy.integrate), оптимизация (scipy.optimize)
Лекция "Модуль Matplotlib: визуализация данных"
Практическая работа "Решение оптимизационной задачи и визуализация результатов"
Лабораторная работа "Построение графиков средних величин"
Модуль 5 "Модуль Pandas: работа с таблицами, загрузка и анализ данных"
=============================================================================================
1. Модуль Pandas (Python for Data Analysis). Основные типы данных: Series, DataFrame
2. Доступ к данным. Статистические методы
3. Загрузка данных из CSV, XLS, HDF5. Группировка и агрегирование. Сводные таблицы
4. Пример анализа данных. Применение NumPy, Pandas, Matplotlib
Лекция "Модуль Pandas (Python for Data Analysis)"
Практическая работа "Анализ данных при помощи Pandas"
Лабораторная работа "Построение сводных таблиц в Pandas"
Модуль 6 "Примеры анализа данных на датасетах"
=============================================================
1. Пример анализа датасета: поток велосипедистов через мост Fremont Bridge
2. Пример анализа датасета: "Open policing project" Стэнфордского университета
Лекция "Примеры анализа данных на примере двух датасетов"
Практическая работа "Загрузка данных из интернета, анализ и визуализация"
Лабораторная работа "Ответить на вопросы по датасету"
Модуль 7 "Обработка текста, регулярные выражения, извлечение данных из веб-страниц"
=================================================================================================
1. Простая обработка текста без регулярных выражений
2. Регулярные выражения и их применение
3. Извлечение данных из веб-страниц. Модули urllib, requests, BeautifulSoup
4. Работа с JSON, HTML, XML
Лекция "Регулярные выражения и их применение"
Практическая работа "Получение описательных статистик для текста"
Лабораторная работа "Обработка текста без применения регулярный выражений и с ними"