• Задачи и ТуДушки

    Есть уже небольшие наработочки, тут буду вести выжимку того, что успел изучить и собирать облачко информации

  • Python Machine Learning

    Работа с библиотеками и утилитами для машинного обучения и науки о данных в Python

  • Основные вехи изучения ML

  • Различные алгоритмические подходы

  • Термины и сокращения

  • Ссылки на статьи и матералы

    • Inferential Statistics - Статистический вывод (Син. Inductive Statistics - Индуктивная статистика)
    • Descriptive Statistics - описательная статистика
    • Adversarial Validation

      Источники:

      • Подмена задачи в ML - описание различных подходов в ML: проверка зависимости признаков, анализ пропущенных значений, восстановление пропущенных значений, проверка совпадений распределения обучения и контроля, кластеризация признаков
      • Подмена задачи в ML, видео - видео версия
    • Курс Прикладные задачи анализа данных

      Ссылки:

    {"cards":[{"_id":"7699b1fbcad286cd5c00013e","treeId":"79170dce25686f42d900003a","seq":12645527,"position":0.75,"parentId":null,"content":"# Задачи и ТуДушки\n\nЕсть уже небольшие наработочки, тут буду вести выжимку того, что успел изучить и собирать облачко информации"},{"_id":"74b965499fd04c1f720000f4","treeId":"79170dce25686f42d900003a","seq":12908134,"position":1,"parentId":"7699b1fbcad286cd5c00013e","content":"### -- Необходимо изучить книгу по глубокому обучению\n\nhttps://habrahabr.ru/company/piter/blog/346358/"},{"_id":"741163792b8443acef00009d","treeId":"79170dce25686f42d900003a","seq":13083423,"position":2,"parentId":"7699b1fbcad286cd5c00013e","content":"### -- Потестировать себя\n\n* https://github.com/rougier/numpy-100\n* https://github.com/ajcr/100-pandas-puzzles"},{"_id":"73dcd8b8921441c2c800009e","treeId":"79170dce25686f42d900003a","seq":13130988,"position":3,"parentId":"7699b1fbcad286cd5c00013e","content":"### -- Инфа про классификацию текстов\n\nhttps://opendatascience.slack.com/archives/C047H3DP4/p1520339149000451"},{"_id":"739b8818b94cfa598000007e","treeId":"79170dce25686f42d900003a","seq":13182134,"position":4,"parentId":"7699b1fbcad286cd5c00013e","content":"### -- Для визуализации ClickHouse\n\nhttps://github.com/apache/incubator-superset"},{"_id":"734c2c3d307fa7155400007f","treeId":"79170dce25686f42d900003a","seq":13237435,"position":5,"parentId":"7699b1fbcad286cd5c00013e","content":"### -- Для хранения кода\n\nhttps://gogs.io/"},{"_id":"7247def317ebb537ef00018c","treeId":"79170dce25686f42d900003a","seq":13427054,"position":6,"parentId":"7699b1fbcad286cd5c00013e","content":"### -- Фигня для прогресс бара, декоратор для итераторов\n\nhttps://github.com/tqdm/tqdm"},{"_id":"60f648613d1354cc4c0001c4","treeId":"79170dce25686f42d900003a","seq":17477038,"position":7,"parentId":"7699b1fbcad286cd5c00013e","content":"## Статьи для изучения\n\n* [A Tale of Three Probabilistic Families: Discriminative, Descriptive and Generative Models](https://arxiv.org/abs/1810.04261)"},{"_id":"609d3780c52f5b3fc00000a9","treeId":"79170dce25686f42d900003a","seq":17529794,"position":8,"parentId":"7699b1fbcad286cd5c00013e","content":"## Книги на которые стоит обратить пристальное внимание\n\n### Statistical Inference\n* f\n\n### Bayesian Infernce\n* f\n\n### Casual Inference\n* [Casual Data Science](https://medium.com/causal-data-science/causal-data-science-721ed63a4027) - хорошие статьи для начального понимания ям и ловушек неправильной работы с данными\n* [Casual Inference Book](https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/) - Книга для подробного изучения"},{"_id":"79170ed325686f42d900003d","treeId":"79170dce25686f42d900003a","seq":10002946,"position":1,"parentId":null,"content":"# Python Machine Learning\n\nРабота с библиотеками и утилитами для машинного обучения и науки о данных в Python"},{"_id":"791714c625686f42d9000055","treeId":"79170dce25686f42d900003a","seq":19063664,"position":1,"parentId":"79170ed325686f42d900003d","content":"# Перечень библиотек\n\n## NumPy\n\n* http://www.numpy.org/\n* https://www.labri.fr/perso/nrougier/from-python-to-numpy/ - отличные материалы по глубокому изучению numpy, есть информация о том как эффективно писать код\n\n## Pandas\n\n* https://pandas.pydata.org/\n* [Modern Pandas](http://tomaugspurger.github.io/modern-1-intro)\n* [Method Chaining](http://tomaugspurger.github.io/method-chaining.html)\n* [Using Pandas With Large Data](https://www.dataquest.io/blog/pandas-big-data/)\n\n## SciPy\n\n* https://www.scipy.org/\n* http://scipy-lectures.org/index.html - хорошие лекции, затрагивают numpy\n* https://github.com/EpistasisLab/scikit-rebate - Либа для feature selection\n* https://github.com/jundongl/scikit-feature - другая либа\n\n\n## Dask\n\n* http://matthewrocklin.com/blog/work/2017/01/24/dask-custom\n* Comparison to Spark - http://docs.dask.org/en/latest/spark.html\n\n\n## Scikit-Learn\n\n* https://scikit-learn.org/stable/\n* http://tomaugspurger.github.io/sklearn-dask-tabular.html\n\n## Visualization: Matplotlib, Seaborn, Vega\n\n* https://matplotlib.org/\n* https://seaborn.pydata.org/\n* https://vega.github.io/vega/\n* https://streamlit.io/ - забавная фигня, можно использоватья в каком-нибудь пилоте\n\n## NLP: NLTK, Gensim, Pymorphy2, Natasha\n\n* https://www.nltk.org/\n* https://radimrehurek.com/gensim/\n* https://pymorphy2.readthedocs.io/en/latest/\n* https://github.com/natasha/natasha\n* [Machine Learning, NLP: Text Classification using scikit-learn, python and NLTK](https://towardsdatascience.com/machine-learning-nlp-text-classification-using-scikit-learn-python-and-nltk-c52b92a7c73a)\n* [Бомбезная библиотека по NLP (AllenNLP)](https://demo.allennlp.org/reading-comprehension)\n\n## Flask, API, NGINX\n* [Как сделать API Python](https://www.analyticsvidhya.com/blog/2017/09/machine-learning-models-as-apis-using-flask/)\n* [Тьюторила по Flask](https://blog.miguelgrinberg.com/post/the-flask-mega-tutorial-part-i-hello-world)\n* [Аутентификация nginx](https://habrahabr.ru/post/351904/)\n\n## PyTorch\n\n* https://www.ritchieng.com/the-incredible-pytorch/"},{"_id":"5cb1e2b0707a84036a2985f3","treeId":"79170dce25686f42d900003a","seq":17462299,"position":1.5,"parentId":"79170ed325686f42d900003d","content":" последовательность int/float в памяти, через это оно хорошо ложится на кэш-линии при сканировании и напрямую ин"},{"_id":"6156753a517dc5c594000099","treeId":"79170dce25686f42d900003a","seq":17398080,"position":1.5,"parentId":null,"content":"## Основные вехи изучения ML"},{"_id":"615674b6517dc5c59400009a","treeId":"79170dce25686f42d900003a","seq":17398082,"position":1,"parentId":"6156753a517dc5c594000099","content":"## Все, что связано с линейными моделями"},{"_id":"564f0b205b77e95b8d0000b3","treeId":"79170dce25686f42d900003a","seq":19239590,"position":1.5,"parentId":"6156753a517dc5c594000099","content":"## Методы опорных векторов (SVM)"},{"_id":"564f0a845b77e95b8d0000b4","treeId":"79170dce25686f42d900003a","seq":19239592,"position":1,"parentId":"564f0b205b77e95b8d0000b3","content":"* Либа для SVM на GPU - https://github.com/Xtra-Computing/thundersvm"},{"_id":"6156741e517dc5c59400009b","treeId":"79170dce25686f42d900003a","seq":17398085,"position":2,"parentId":"6156753a517dc5c594000099","content":"## Деревья решений"},{"_id":"564f08555b77e95b8d0000b5","treeId":"79170dce25686f42d900003a","seq":19239593,"position":1,"parentId":"6156741e517dc5c59400009b","content":"* Либа для GBDT и RF на GPU - https://github.com/Xtra-Computing/thundergbm"},{"_id":"615673d2517dc5c59400009c","treeId":"79170dce25686f42d900003a","seq":17398086,"position":3,"parentId":"6156753a517dc5c594000099","content":"## Градиентный бустинг"},{"_id":"615671aa517dc5c59400009f","treeId":"79170dce25686f42d900003a","seq":17477034,"position":3.5,"parentId":"6156753a517dc5c594000099","content":"## Общие подходы к решению задач ML"},{"_id":"6155fb1b517dc5c5940000a2","treeId":"79170dce25686f42d900003a","seq":17398123,"position":1,"parentId":"615671aa517dc5c59400009f","content":"## Adversarial Validation\n\nИсточники:\n* [Подмена задачи в ML](https://dyakonov.org/2019/03/22/%D0%BF%D0%BE%D0%B4%D0%BC%D0%B5%D0%BD%D0%B0-%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8-%D0%B2-ml/) - описание различных подходов в ML: проверка зависимости признаков, анализ пропущенных значений, восстановление пропущенных значений, проверка совпадений распределения обучения и контроля, кластеризация признаков\n* [Подмена задачи в ML, видео](https://www.youtube.com/watch?v=I0sUUxc9XhQ) - видео версия"},{"_id":"615570c2517dc5c5940000a3","treeId":"79170dce25686f42d900003a","seq":17398255,"position":2,"parentId":"615671aa517dc5c59400009f","content":"## Курс Прикладные задачи анализа данных\n\nСсылки:\n* [ПЗАД](http://www.machinelearning.ru/wiki/index.php?title=%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC%D1%8B%2C_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%2C_%D0%B0%D0%BB%D0%B3%D0%B5%D0%B1%D1%80%D1%8B_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%AE.%D0%98._%D0%96%D1%83%D1%80%D0%B0%D0%B2%D0%BB%D0%B5%D0%B2%2C_%D0%90.%D0%93._%D0%94%D1%8C%D1%8F%D0%BA%D0%BE%D0%BD%D0%BE%D0%B2%29)\n* [ПЗАД github](https://github.com/Dyakonov/PZAD/blob/master/README.md)"},{"_id":"61553f1d517dc5c5940000a5","treeId":"79170dce25686f42d900003a","seq":17398275,"position":3.75,"parentId":"6156753a517dc5c594000099","content":"## Нейросети и все их фишечки"},{"_id":"5850c69aab0c21a23a0000dd","treeId":"79170dce25686f42d900003a","seq":19021050,"position":1,"parentId":"61553f1d517dc5c5940000a5","content":"## Перечень архитектур нейросетей\n\nhttps://habr.com/ru/company/oleg-bunin/blog/340184/"},{"_id":"61567382517dc5c59400009d","treeId":"79170dce25686f42d900003a","seq":17398272,"position":4,"parentId":"6156753a517dc5c594000099","content":"## Семейство моделей HMM, CRF\n\nСсылки:\n* [An Introduction to Conditional Random Fields](http://homepages.inf.ed.ac.uk/csutton/publications/crftut-fnt.pdf)\n* [Classical Probabilistic Models and Conditional Random Fields](https://ls11-www.cs.tu-dortmund.de/_media/techreports/tr07-13.pdf)\n* [An Introduction to Conditional Random Fields for Relational Learning](https://people.cs.umass.edu/~mccallum/papers/crf-tutorial.pdf)\n* [Марковские случайные поля](https://habr.com/ru/post/241317/)\n* [Применение условных случайных поле в задачах обработки текстов на естественном языке](http://www.machinelearning.ru/wiki/images/f/fc/Romanenko2014Application.pdf)"},{"_id":"5be09cd5689d1221ee000132","treeId":"79170dce25686f42d900003a","seq":18311393,"position":1,"parentId":"61567382517dc5c59400009d","content":"### Заметки и ссылки\n\n* http://www.dialog-21.ru/media/1220/antonovaaj.pdf\n* http://www.machinelearning.ru/wiki/images/f/fc/Romanenko2014Application.pdf\n* https://habr.com/post/241317/\n* https://pystruct.github.io/\n* https://www.youtube.com/watch?v=hVB8fzXknTg\n* https://people.cs.umass.edu/~mccallum/papers/crf-tutorial.pdf тьюториал по тематике\n* https://en.wikipedia.org/wiki/Conditional_random_field\n* http://nlpx.net/archives/439 - конспект по моделям\n* https://ls11-www.cs.tu-dortmund.de/_media/techreports/tr07-13.pdf\n* http://homepages.inf.ed.ac.uk/csutton/publications/crftut-fnt.pdf"},{"_id":"61562fb4517dc5c5940000a0","treeId":"79170dce25686f42d900003a","seq":17398108,"position":1.75,"parentId":null,"content":"## Различные алгоритмические подходы"},{"_id":"61562f3e517dc5c5940000a1","treeId":"79170dce25686f42d900003a","seq":17398110,"position":1,"parentId":"61562fb4517dc5c5940000a0","content":"## Genetic Algorithms\n\n* https://blog.sicara.com/getting-started-genetic-algorithms-python-tutorial-81ffa1dd72f9"},{"_id":"570738ba3478eed1260000b1","treeId":"79170dce25686f42d900003a","seq":19175553,"position":4.5,"parentId":null,"content":""},{"_id":"699e0a68501a5939e2000100","treeId":"79170dce25686f42d900003a","seq":15443907,"position":5,"parentId":null,"content":"# Термины и сокращения"},{"_id":"699e0a14501a5939e2000101","treeId":"79170dce25686f42d900003a","seq":15443917,"position":2,"parentId":"699e0a68501a5939e2000100","content":"* Inferential Statistics - [Статистический вывод](https://ru.wikipedia.org/wiki/Статистический_вывод) (Син. Inductive Statistics - Индуктивная статистика)\n* Descriptive Statistics - описательная статистика"},{"_id":"7a0d562857a7ed6925000073","treeId":"79170dce25686f42d900003a","seq":15443928,"position":6,"parentId":null,"content":"# Ссылки на статьи и матералы"},{"_id":"7a0d56b257a7ed6925000074","treeId":"79170dce25686f42d900003a","seq":17335933,"position":1,"parentId":"7a0d562857a7ed6925000073","content":"## Спортивный анализ данных\nhttps://habrahabr.ru/company/yandex/blog/327444/"},{"_id":"5bd668c0821846795f5e52c7","treeId":"79170dce25686f42d900003a","seq":17335930,"position":2,"parentId":"7a0d562857a7ed6925000073","content":"## Байесовый подход к машинному обучению\n\n* http://bayesgroup.ru/\n* Bayesian Reasoning and Machine Learing - http://web4.cs.ucl.ac.uk/staff/D.Barber/textbook/091117.pdf\n* Целый курс по этой тематике - http://www.machinelearning.ru/wiki/index.php?title=%D0%91%D0%BC%D0%BC%D0%BE\n* Книга Ю. Кюна «Описательная и индуктивная статистика» - разница между описательной и индуктивной статистикой\n* Bolstad, William M.; Curran, James M - Introduction to Bayesian statistics"},{"_id":"61a2f76b8fbfce8f12000322","treeId":"79170dce25686f42d900003a","seq":17335924,"position":3,"parentId":"7a0d562857a7ed6925000073","content":"## Прогнозирование временных рядов\n\n* https://www.linkedin.com/pulse/how-use-machine-learning-time-series-forecasting-vegard-flovik-phd\n* https://www.datascience.com/blog/time-series-forecasting-machine-learning-differences\n* https://otexts.org/fpp2/ - Forecasting: Principles and Practice"},{"_id":"61a2f5ed8fbfce8f12000323","treeId":"79170dce25686f42d900003a","seq":17335968,"position":4,"parentId":"7a0d562857a7ed6925000073","content":"## Метрики\n\nИнформация по работе с метриками машинного обучения\n\n* [Метрики в задачах классификации](https://habr.com/ru/company/ods/blog/328372/)\n* [The Relationship Between Precision-Recall and ROC Curves](http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf)\n* [Линейные модели классификации и регрессии](https://habr.com/ru/company/ods/blog/323890/#princip-maksimalnogo-pravdopodobiya-i-logisticheskaya-regressiya)\n* [Задачки про AUC (ROC)](https://dyakonov.org/2015/10/09/%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%BA%D0%B8-%D0%BF%D1%80%D0%BE-auc-roc/)\n* [Метрики и несбалансированные выборки](https://ld86.github.io/ml-slides/unbalanced.html#/)"}],"tree":{"_id":"79170dce25686f42d900003a","name":"Study - Data Science","publicUrl":"study-data-science","latex":true}}