Comma Separated Files

Introduction to CSV file

Comma-separated files (CSV) are common in machine learning. These files have a row of data per line of the file and each line is a comma-separated list in which each element is a column. Pandas makes it easy to read this data.
Reading CSV file with Pandas

The documentation can be found here. Before reading a CSV file, there are three parameters that should be known:

    sep - this defaults to a comma, but we can specify anything we want. For example, CSV format is poor if some of your columns contain commas. A better option might be a |.
    header - which row (if any) have the column names.
    names - column names to use.

If your CSV is well-formatted where the first row is the column names, then the default parameters should work well.

It is important to note that while it might sound simple to read in a CSV file without Pandas, CSV files are often very messy and reading them appropriately can often consist of handling many edge cases. Pandas module handles many of those edge cases right out of the box and has many parameters that you can change to handle messier CSV files.

Let’s see an example with code.

Let’s deconstruct the code. First, we have a CSV of data that lives at this page.

Go to the page, click on Data Folder and then select adult.data file. It will download the small dataset for you. Once downloaded, open it in Excel or any text editor. You will see rows of data with each column separated by commas.

You will notice that this CSV doesn’t have column names. Fortunately, we know what the names should be and supplied them to the names parameter at line 2. Since Pandas assumes the first row is the header (columns), header=None was used at line 7, so it would read the first row as data.

The data is read into a Pandas dataframe.

A Pandas dataframe is very similar to a matrix of data, but with some additional benefits (usually at the cost of performance). For example, you get named columns and rows as well as the ability to store different types of data in each column. For example, one column could be integers and another text.

You might imagine a dataframe as an Excel sheet of data. For example, if you had a sheet with a column of dates and a column of temperatures on those dates, you could easily represent it as a dataframe.

We can see the first 5 rows of data by calling the head() function on the dataframe. In the next section on describing data, we will go more in-depth on how to use a dataframe.

Next, let’s look at reading in JSON files.


<div dir="rtl" style="text-align: right;">
<h1>فایل‌های جدا شده با کاما (Comma Separated Files)</h1>
<h2>معرفی فایل CSV</h2>
<p>فایل‌های جدا شده با کاما 
(CSV)
 در یادگیری ماشین بسیار رایج هستند. این فایل‌ها دارای یک ردیف داده در هر خط از فایل هستند و هر خط یک لیست جدا شده با کاما است که در آن هر عنصر یک ستون است. 
 Pandas
  خواندن این داده‌ها را آسان می‌کند.</p>
<h2>خواندن فایل CSV با Pandas</h2>
<p>مستندات را می‌توانید <a href="https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table">اینجا</a> پیدا کنید. قبل از خواندن یک فایل 
CSV، سه پارامتر وجود دارد که باید شناخته شود:</p>
<ul>
<li>sep - 
(جداکننده)
 به طور پیش‌فرض کاما است، اما ما می‌توانیم هر چیزی که می‌خواهیم مشخص کنیم. به عنوان مثال، فرمت 
CSV
 در جاهایی که داده شما خود حاوی کاما است خوب عمل نمی‌کند در می مواقع گزینه بهتر ممکن است | باشد.</li>
<li>header - کدام ردیف (در صورت وجود) نام ستون‌ها را دارد.</li>
<li>names - نام‌های ستون برای استفاده.</li>
</ul>
<p>اگر 
CSV
 شما به خوبی فرمت شده باشد که ردیف اول نام ستون‌ها باشد، پس پارامترهای پیش‌فرض باید خوب کار کنند.</p>
<p>مهم است که توجه داشته باشید در حالی که خواندن یک فایل 
CSV
 بدون 
 Pandas
  ممکن است ساده به نظر برسد، فایل‌های 
  CSV
   اغلب بسیار به هم ریخته هستند و خواندن آن‌ها به طور مناسب اغلب شامل رسیدگی به بسیاری از موارد خاص است. ماژول 
   Pandas
    بسیاری از این موارد خاص را بلافاصله رسیدگی می‌کند و پارامترهای زیادی دارد که می‌توانید تغییر دهید تا با فایل‌های 
    CSV
     به هم ریخته‌تر کنار بیایید.</p>
<p>بیایید یک مثال با کد را ببینیم.</p>


In [None]:
import pandas as pd

# تعریف نام ستون‌ها در یک لیست
names = ['age', 'workclass', 'fnlwgt', 'education', 'educationnum', 'maritalstatus', 'occupation', 'relationship', 'race',
        'sex', 'capitalgain', 'capitalloss', 'hoursperweek', 'nativecountry', 'label']
# خواندن یک فایل csv 
df = pd.read_csv("statics/data/02_08_01_adult.data", header=None, names=names)
                      
print(df.head())