Introduction to Data Analysis with Python

PART 3 Pandas

2. Pandas

O Pandas można myśleć jak o arkuszu kalkulacyjnym dla programistów. Biblioteka ta posiada wsparcie dla plików Excela, plików CSV, oraz wielu innych formatów w których przechowywane są dane. Jedna tablica numpy zawiera obiekty tego samego typu, w przypadku pandas dane muszą być tego samego typu w jednej kolumnie, lecz cała tablica może przechowywać różnego rodzaju dane.

Jeżeli chcemy nauczyć się pracy z danymi jest to niezbędne narzędzie, najbardziej popularne wsród naukowców.

Poradniki:

  • https://www.kaggle.com/learn/pandas
  • https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/
  • https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html

W przypadku Pandas kluczowym jest zrozumienie rozróżnienia pomiędzy Series (pojedyncze kolumny danych), a Dataframe (tabela zawierająca Series).

Przykładowe zbiory danych:

  • https://gs.statcounter.com/screen-resolution-stats/mobile/worldwide
  • https://data.europa.eu/euodp/en/data/dataset/covid-19-coronavirus-data
  • https://www.kaggle.com/datasets

Cheat sheet:

https://www.kaggle.com/timoboz/data-science-cheat-sheets https://github.com/datasciencescoop/Data-Science-Tutorials https://github.com/datasciencescoop/Math-for-Data-Science

3. Scipy, SymPy

Poradniki:

  • https://www.scipy.org/scipylib/index.html
  • https://www.sympy.org/en/index.html

CO DALEJ?

hqdefault.jpg