Cel
Na co dzień pracujesz z różnorodnymi zbiorami danych. Zwykle wykorzystujesz arkusz kalkulacyjny, wprowadzasz lub wklejasz dane, tworzysz formuły, formatujesz wizualnie i odsyłasz dalej. Pewne czynności powtarzają się co chwilę, więc wykorzystujesz makra i VBA. Jesteś wprawionym, doświadczonym użytkownikiem Microsoft Excel. Wiesz jednak, że potrzebujesz czegoś więcej.
Ilość danych zwiększa się coraz bardziej, raporty oraz wnioski z analizy są potrzebne innym coraz szybciej, proste wykresy i tabele już nie wystarczają, masz coraz mniej czasu na zrobienie tego samego. Potrzebujesz nowej jakości, potrzebujesz lepszych narzędzi. Potrzebujesz wiedzy i praktycznych rozwiązań, które znajdziesz na kierunku Analityka Biznesowa.
Poznasz narzędzia, które pozwolą efektywnie i wydajnie pracować z dużymi zbiorami danych (setki milionów wierszy to jeszcze nie big data, ale coś co możesz spotkać już dziś w swojej organizacji). Dowiesz się jak zaprojektować wielowymiarowy model, który wdrożysz w starym dobrym Excel (ale na kolumnowym, pracującym w pamięci RAM silniku analitycznym) lub na nowoczesnej platformie Power BI/Analysis Services. Nauczysz się tworzyć zaawansowane kalkulacje w języku DAX. Zobaczysz jak stworzyć porywające wizualizacje, które pomogą Ci opowiedzieć historię zaszytą w Twoich danych. Wykorzystasz język R oraz algorytmy uczenia maszynowego aby wydobyć zależności głęboko ukryte w gąszczu liczb. Opublikujesz wyniki swojej pracy jako atrakcyjny, interaktywny raport dostępny poprzez Internet na urządzeniach mobilnych.
Tematyka zajęć pozwoli Ci na poznanie szeregu nowoczesnych narzędzi służących do pozyskiwania, składowania, przetwarzania oraz udostępniania danych w różnych formach.
W trakcie trwania Studiów studenci będą realizować projekty pozwalające na wykorzystanie poznawanych narzędzi oraz funkcjonalności. Zadania będą oparte na realnych zbiorach danych dostępnych w Internecie oraz na zasobach danych publicznych (GUS, ministerstwa i agendy państwowe).
Zajęcia prowadzą doświadczeni praktycy, którzy zrealizowali setki projektów w wielu organizacjach, którzy napotkali przy tym tysiące problemów małych i dużych. Ponieśli przy tym dziesiątki porażek, ale niezrażeni niepowodzeniami dążyli uparcie do celu. Opowiedzą Ci o wielu kłopotach, dzięki czemu Ty ich unikniesz.
Dla kogo?
- Osoby na co dzień zajmujące się analizą danych, przygotowywaniem danych na potrzeby raportowania i podejmowania decyzji.
- Kontrolerzy finansowi, pracownicy działów analiz, księgowości.
- Administratorzy serwerów, usług, baz danych chcący szybko i efektywnie analizować zapisy działania (logi) sprzętu i oprogramowania.
- Developerzy rozwiązań analityczno-raportujących na platformie Microsoft Office 365, Power BI lub SQL Server.
- Osoby chcące zdobyć bardzo poszukiwane na rynku kompetencje inżyniera danych (data engineer).
Wymagania wstępne
- Obsługa komputera oraz systemu operacyjnego Windows na poziomie pozwalającym swobodnie korzystać z systemu plików oraz Internetu.
- Chęć poznania nowych narzędzi oraz technologii.
- Zapas wolnego czasu i chęci – przewidujemy sporo zadań do samodzielnego wykonania.
Tematy zajęć
- Budowa modeli analitycznych
60 godzin
Praca z większymi zbiorami danych wymaga użycia odpowiedniego oprogramowania do ich składowania i przetwarzania. Z drugiej strony analiza wymaga specjalnego przygotowania bazy, która będzie wykorzystywana w projektach eksploracji danych. Na którą formę składowania danych się zdecydować? Jakie narzędzie wybrać do zdefiniowania kalkulacji? W jaki sposób udostępnić budowany model aplikacjom analitycznym oraz innym Użytkownikom?
W ramach przedmiotu poznasz zasady projektowania i budowy modeli wielowymiarowych. Przykładowe implementacje zbudujesz w bazie SQL oraz przy użyciu dedykowanego serwera analitycznego wykorzystywanego w Excel, Power BI oraz Analysis Services. Poznasz dwa języki służące do pracy z modelem: SQL oraz DAX. Pracować będziesz z małymi zbiorami liczącymi po kilkadziesiąt tysięcy wierszy ale zmierzysz się również ze zbiorem większym, mającym ponad 120 milionów wierszy.
- Organizacja i przebieg procesu analizy danych. Metodyka CRISP-DM
- Formy magazynowania danych – wady, zalety
- Relacyjne bazy danych. Język SQL. Projektowanie baz analitycznych z wykorzystaniem języka SQL. Funkcje analityczne w języku SQL. Tworzenie procedur składowanych oraz funkcji. Automatyzacja działań przy pomocy usługi SQL Server Agent.
- Tworzenie wielowymiarowych modeli analitycznych w Excel, Power BI, Analysis Services Tabular. Formy relacji pomiędzy tabelami. Propagacja filtrów. Hierarchie. Kontekst wykonywania obliczeń.
- Tworzenie kalkulacji oraz zapytań w języku DAX. Miary. Kolumny kalkulowane. Tabele kalkulowane. Modyfikacja kontekstu obliczeń.
- Implementacja typowych sytuacji biznesowych: budżetowanie, planowanie, monitorowanie realizacji planu, analiza stanów magazynowych i danych o charakterze bilansowym. Perspektywy czasowe (YTD, MTD, rok do roku, analogiczny okres poprzedniego roku itp.)
- Ładowanie i przekształcanie danych
30 godzin
W większości szkoleń oraz kursów dane źródłowe są w formie gotowej do wykorzystania. Nic tylko wydać polecenie załadowania danych i można już tworzyć zaawansowane raporty analityczne. Nie u nas. Tutaj zmierzysz się z prawdziwymi, naturalnymi zbiorami danych. Dziwny format, braki w danych, nieznane kody, niekompletne zbiory, różne układy i strony kodowe – to chleb codzienny analityka, który najpierw musi zintegrować dane pochodzące z różnych źródeł.
Poznasz dwa narzędzia wykorzystywane na platformie Microsoft do pobierania danych z różnych źródeł oraz wszechstronnego ich przekształcania. Power Query jest wbudowany w Excel, Power BI oraz Analysis Services Tabular. Narzędzie to w ostatnim czasie zdobyło sobie sporą grupę zwolenników – proste a jednocześnie posiadające ogromne możliwości. Wyposażony w równie szeroki zakres funkcji Integration Services pozwala na tworzenie zautomatyzowanych procesów ładowania danych do modeli.
- Zagadnienia jakości danych.
- Power Query. Źródła danych. Przekształcenia danych. Parametryzacja zapytań. Funkcje zaawansowane.
- SQL Server Integration Services. Tworzenie i automatyzacja procesów zasilania modeli analitycznych.
- Wizualizacja danych i raportowanie
50 godzin
Gotowy model analityczny stanowi źródło dla wizualizacji danych. To one pozwalają Ci pokazać zależności, zwrócić uwagę Użytkownika na określone rzeczy. Niezwykle istotną cechą narzędzi, które będą przez Ciebie używane jest możliwość tworzenia prezentacji interaktywnych, opowiadających nakreśloną historię. Każde z narzędzi posiada swoje cechy szczególne, funkcjonalności decydujące o sposobie pokazania informacji. Masz szeroki wybór, ale jak z niego skorzystać? Dowiesz się jakie są cechy dobrej wizualizacji, jak uniknąć problemów podczas tworzenia prezentacji.
- Wykorzystanie tabeli i wykresu przestawnego w Excel. Fragmentatory. Funkcje OLAP w Excel.
- Wizualizacja danych w Power BI
- Tworzenie i publikacja raportów z użyciem SQL Server Reporting Services
- Analiza danych z wykorzystaniem języka R
20 godzin
Język R pozwala znacznie rozszerzyć możliwości narzędzi analitycznych. R nie jest kolejnym, typowym językiem programowania. Został stworzony przez statystyków dla statystyków – stąd wiele skomplikowanych operacji na danych lub złożonych wizualizacji jest tworzonych przez pojedyncze instrukcje tego języka. Dostępność dużej liczby bibliotek i rozszerzeń czyni go niezwykle uniwersalnym. Ogromne możliwości Excel czy Power BI mają jednak swoje granice. R pozwoli Ci je przekroczyć.
- Podstawowe konstrukcje języka R. Wykorzystywane typy danych: wektory, listy, macierze, tablice, faktor, ramki danych. Wektoryzacja działań.
- Pozyskiwanie danych z różnych źródeł: bazy danych, pliki tekstowe i Excel, strony internetowe.
- Podstawy statystyki opisowej z wykorzystaniem języka R.
- Przekształcanie danych z wykorzystaniem biblioteki dplyr.
- Wizualizacja danych – biblioteka ggplot2.
- Publikacja i prezentacja wyników analiz: knitr oraz Shiny.
- Wykorzystanie języka R w Excel (BIRT), Power BI, SQL Server.
- Wykorzystanie modeli uczenia maszynowego w analizie danych
20 godzin
Uczenie maszynowe pozwoli Ci na odkrycie zakopanych gdzieś głęboko zależności i reguł rządzących Twoim zbiorem danych. Chcesz wiedzieć czy prawdziwa jest hipoteza o zależności wybranych zmiennych, które cechy produktu czy klienta mają największy wpływ na wielkość sprzedaży, chcesz uzupełnić brakujące dane na podstawie innych podobnych przypadków, chcesz odrzucić obserwacje nietypowe, zakłócające obraz całości? To są właśnie zastosowania algorytmów uczenia maszynowego. Utworzony na podstawie posiadanej bazy model pozwoli na przewidywanie przyszłych wartości interesujących Cię zmiennych.
Nie będziemy tworzyć skomplikowanych sieci neuronowych mówiących czy klient na zdjęciu uśmiecha się czy nie. Nie zbudujemy modelu automatycznie kierującego Twoim samochodem. Wykorzystamy jednak bardzo podobne algorytmy do rozwiązywania mniej złożonych problemów zaszytych w Twoich danych – prognoza sprzedaży, kosztów, zależność sprzedaży od wysokości nakładów marketingowych, prognoza kształtowania się cen i temu podobne.
- Wprowadzenie do uczenia maszynowego. Dobór i redukcja zmiennych. Przekształcenia danych wymagane przez procedury uczenia maszynowego.
- Tworzenie modeli uczenia maszynowego. Dobór algorytmu oraz jego parametrów. Trenowanie. Walidacja modelu. Predykcja z użyciem modelu.
- Problemy klasyfikacyjne. Wykorzystanie drzew decyzyjnych, maszyny wektorów nośnym, sieci neuronowych oraz innych klasyfikatorów.
- Algorytmy grupujące.
Informacje organizacyjne
Koszt studiów to 6000 zł (lub 4 raty) w tym opłata rezerwacyjna w wysokości 100 zł.
Numer konta bankowego: 61 1440 1127 0000 0000 0193 3148
Zjazdy: sobota-niedziela (w tym zjazdy w lipcu oraz wrześniu w zależności od organizacji roku akademickiego)