NumPy 和 Pandas 入门

    Machine Learning

简介

numpy - Numerical Python 和 pandas - Python Data Analysis Library 是 Python 语言处理数据时常用的两个库,专门用来进行诸如线性代数方面的计算。通过 Python 的库管理软件 Anaconda 等可以很容易地安装(进一步查看安装和配置 Anaconda

## 同时安装 numpy 和 pandas 两个软件包(Packages)- 左边的 (py3) 表示当前处于 Anaconda 的虚拟环境 py3 中
(py3) $ conda install numpy pandas
# 载入 numpy 和 pandas - 演示文件 ~/demo_script.py 
import pandas as pd
import numpy as np

# code block
...
...

NumPy 和 Pandas 包含很多好用的东西,这里只介绍常用的几个数据类型和相应的函数,更多风骚操作还是得看官方文档和 Google 。

PS:
为了在描述过程中区分 numpy 里的 ndArray 数据类型和 Pandas 里的 Series 类型,下文对于 ndArray 将使用 position 来称呼它的引用,而对于 Series 则用 index (Series 也有 position)。你将很快看到两者的不同。


区别

使用 NumPy 和 Pandas 这两个库时,通常是使用里面的三个数据类型:

  • NumPy 里的 ndArray 类型(也常被非官方地说成 Numpy 的 Array 类型)
  • Pandas 里的 Series 类型
  • Pandas 里的 DataFrame 类型 - 其中每列 (column) 都是一个 Series

这些数据类型包含了常见的分析计算数据的方法 (methods),其计算数据的速度比 Python 自带的 list 等类型要快,以下是它们的特点和区别:

  1. NumPy 里的 ndArray 类型要求其中储存的数据类型必须一致,所以它主要用来处理大规模类型相同的 2 维或多维数据;
  2. Pandas 里的 Series 类型也要求其中储存的数据类型必须一致,不过它储存的数据是一维的;
  3. Pandas 里的 DataFrame 类型允许各个列 (column) 之间的数据类型不同(同列数据得相同)- 它的每个列可以看成一个独立的 Series

要进一步查询 NumPy 使用方法,除了 NumPy 官方文档,还可参看 Numpy 进阶

要进一步查询 Pandas 使用方法,除了 Pandas 官方文档,还可参看 Pandas 进阶


打赏