Data Pre-processing or Data Cleaning or Data Wranging.
Tiền xử lý dữ liệu luôn là một bước quan trọng trong các bài toán phân tích dữ liệu.
Đây là bước chuyển đổi hoặc ánh xạ dữ liệu từ dạng khởi tạo ban đầu về các dạng chuẩn có thể xử lý được.
Những bước cần thiết trong tiền xử lý dữ liệu:
+ Định nghĩa lại những giá trị bị thiếu (identify and handle missing value)
+ Định dạng lại dữ liệu (data formatting)
+ Chuẩn hóa dữ liệu (data normalize)
+ Data binning
+ Chuyển các nhãn phân loại về các biến kiểu số (turning categorical values to numberic variables)
1. Đối phó với dữ liệu bị thiếu trong python
Các tập dữ liệu thường bị thiếu một vài trường thông tin ở các hàng, thường có giá trị ?, 0, N/A hoặc chỉ là null.
Có nhiều cách để xử ký những giá trị này trong Python hoặc R như:
+ Hủy những giá trị thiếu:
- Hủy hàng
- Hủy cột
+ Thay thế bởi những giá trị khác:
- Giá trị trung bình
- Giá trị xuất hiện với tần số cao
- Thay thế dựa trên 1 hàm tự tạo
Thư viện Panda hỗ trợ hàm dropna() để hủy hàng hoặc cột:
Tiền xử lý dữ liệu luôn là một bước quan trọng trong các bài toán phân tích dữ liệu.
Đây là bước chuyển đổi hoặc ánh xạ dữ liệu từ dạng khởi tạo ban đầu về các dạng chuẩn có thể xử lý được.
Những bước cần thiết trong tiền xử lý dữ liệu:
+ Định nghĩa lại những giá trị bị thiếu (identify and handle missing value)
+ Định dạng lại dữ liệu (data formatting)
+ Chuẩn hóa dữ liệu (data normalize)
+ Data binning
+ Chuyển các nhãn phân loại về các biến kiểu số (turning categorical values to numberic variables)
1. Đối phó với dữ liệu bị thiếu trong python
Các tập dữ liệu thường bị thiếu một vài trường thông tin ở các hàng, thường có giá trị ?, 0, N/A hoặc chỉ là null.
Có nhiều cách để xử ký những giá trị này trong Python hoặc R như:
+ Hủy những giá trị thiếu:
- Hủy hàng
- Hủy cột
+ Thay thế bởi những giá trị khác:
- Giá trị trung bình
- Giá trị xuất hiện với tần số cao
- Thay thế dựa trên 1 hàm tự tạo
Thư viện Panda hỗ trợ hàm dropna() để hủy hàng hoặc cột:
dataframe.dropna();
với tham số axis=0 để hủy hàng, axis=1 để hủy cột. Tham số inplace=true để thay đổi trực tiếp trên mẫu dữ liệu.
Panda hỗ trợ hàm replace để thay thế giá trị bị thiếu bởi giá trị khác.
mean = df['price'].mean()
df['price'].replace(np.nan, mean)
Nhận xét
Đăng nhận xét