Introduction to Data Analysis with Python
PART 3 Pandas
2. Pandas
O Pandas można myśleć jak o arkuszu kalkulacyjnym dla programistów. Biblioteka ta posiada wsparcie dla plików Excela, plików CSV, oraz wielu innych formatów w których przechowywane są dane. Jedna tablica numpy zawiera obiekty tego samego typu, w przypadku pandas dane muszą być tego samego typu w jednej kolumnie, lecz cała tablica może przechowywać różnego rodzaju dane.
Jeżeli chcemy nauczyć się pracy z danymi jest to niezbędne narzędzie, najbardziej popularne wsród naukowców.
Poradniki:
- https://www.kaggle.com/learn/pandas
- https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/
- https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html
W przypadku Pandas kluczowym jest zrozumienie rozróżnienia pomiędzy Series (pojedyncze kolumny danych), a Dataframe (tabela zawierająca Series).
Przykładowe zbiory danych:
- https://gs.statcounter.com/screen-resolution-stats/mobile/worldwide
- https://data.europa.eu/euodp/en/data/dataset/covid-19-coronavirus-data
- https://www.kaggle.com/datasets
Cheat sheet:
https://www.kaggle.com/timoboz/data-science-cheat-sheets https://github.com/datasciencescoop/Data-Science-Tutorials https://github.com/datasciencescoop/Math-for-Data-Science
3. Scipy, SymPy
Poradniki:
- https://www.scipy.org/scipylib/index.html
- https://www.sympy.org/en/index.html