In [1]:
import numpy as np
import pandas as pd

from faker import Faker
fake = Faker('fa')
fake.name()
fake.address()

'2473 سوگند دره\nشمال سجاد, گلستان 106'

## From dict of Series or dicts

In [2]:
d = {
    'first': np.random.randint(10, 100, size=7),
    'second': np.random.randint(10, 100, size=7) * 5,
}

In [3]:
s1 = pd.DataFrame(d)

In [4]:
s1

Unnamed: 0,first,second
0,73,270
1,87,445
2,59,480
3,44,85
4,88,105
5,44,345
6,18,90


In [5]:
pd.DataFrame(d, columns=['first'])

Unnamed: 0,first
0,73
1,87
2,59
3,44
4,88
5,44
6,18


In [6]:
s1.index

RangeIndex(start=0, stop=7, step=1)

In [7]:
s1.columns

Index(['first', 'second'], dtype='object')

In [8]:
s1.columns = ['hi', 'by']

In [9]:
s1

Unnamed: 0,hi,by
0,73,270
1,87,445
2,59,480
3,44,85
4,88,105
5,44,345
6,18,90


## From Structured or Record array

In [10]:
df = np.array(
    [4, 3],
    dtype=[('name', 'U10'), ('age', 'i4'), ('degree', 'a10')]
)

In [11]:
df[:] = [(fake.name(), np.random.randint(10, 99), 'bachlar'),
         (fake.name(), np.random.randint(10, 99), 'master'),
        ]

In [12]:
pd.DataFrame(df, index=range(1, 3))

Unnamed: 0,name,age,degree
1,فاطمه زهرا,15,b'bachlar'
2,اسما سماوا,39,b'master'


## From a List of Dicts

In [15]:
df2 = [
    {'name': fake.name(), 'age': np.random.randint(10, 50), 'address': fake.address()},
    {'name': fake.name(), 'age': np.random.randint(10, 50), 'address': fake.address()},
    {'name': fake.name(), 'age': np.random.randint(10, 50), 'address': fake.address()},
]

In [16]:
df21 = [{'name': fake.name(), 'age': np.random.randint(10, 50), 'address': fake.address()} for i in range(7)]

In [18]:
pd.DataFrame(df2, index=range(1, 4))

Unnamed: 0,name,age,address
1,باران تهرانی,17,44421 عبدالمالکی بزرگ راه سوئیت 333\nشمال الين...
2,اميرمحمد ابوطالبی,35,"36676 محمدپارسا میدان واحد 136\nجنوب علی اكبر,..."
3,سبحان علیجانی,34,"55756 سینا بن بست\nشرق حسام, هرمزگان 512"


In [19]:
pd.DataFrame(df21)

Unnamed: 0,name,age,address
0,آرتین قاضی,22,"565 ضابطی میدان\nجنوب اميرحسين, خراسان شمالی 6..."
1,جناب آقای دکتر سینا جلالی,29,"125 دانیال تقاطع سوئیت 506\nاستان محمدمهدي, خر..."
2,امیرحسین علی پور,49,"734 رستمی بلوار واحد 253\nشرق امیررضا, تهران 7..."
3,متين زارع,37,"6614 النا چهار راه\nدهستان آوا, گیلان 711121"
4,یگانه منصوری,28,"545 عرفان بزرگ راه سوئیت 840\nدهستان ایلیا, کر..."
5,جناب آقای دکتر پارسا نیلوفری,48,"237 منصوری آزاد راه\nشهرستان ياسين, کهگیلویه و..."
6,حسین الوندی,20,"301 ستایش دره واحد 425\nشرق سجاد, زنجان 045377..."


## From a Dict of Tuples

In [20]:
df3 = {
    ('a', 'b'): {('A', 'B'): 1, ('A', 'C'): 10},
    ('a', 'c'): {('A', 'A'): 20, ('A', 'B'): 30}
}

In [21]:
pd.DataFrame(df3)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a
Unnamed: 0_level_1,Unnamed: 1_level_1,b,c
A,B,1.0,30.0
A,C,10.0,
A,A,,20.0


## From a List of NamedTuple

In [22]:
from collections import namedtuple

In [23]:
point = namedtuple('Point', 'x y')

In [24]:
pd.DataFrame([point(0, 0), point(0, 1)])

Unnamed: 0,x,y
0,0,0
1,0,1


## Columns selection, addition, deletion

In [25]:
d = {
    'age': np.random.randint(10, 60, 10),
}

In [26]:
df = pd.DataFrame(d)

In [27]:
df

Unnamed: 0,age
0,33
1,54
2,20
3,46
4,47
5,47
6,22
7,47
8,18
9,51


In [36]:
df.insert(1, 'old', df['age'] > 20)

In [39]:
df

Unnamed: 0,age,old
0,33,True
1,54,True
2,20,False
3,46,True
4,47,True
5,47,True
6,22,True
7,47,True
8,18,False
9,51,True


In [40]:
df['name'] = [fake.name() for i in range(10)]

In [41]:
df

Unnamed: 0,age,old,name
0,33,True,جناب آقای محمد طاها زمانی
1,54,True,ساميار صیادی
2,20,False,عسل ترکاشوند
3,46,True,مبینا خسروجردی
4,47,True,عليرضا صارمی
5,47,True,زينب اکبر پور
6,22,True,محمد محمد پور
7,47,True,کيان علیجانی
8,18,False,سرکار خانم سارینا دایی
9,51,True,یگانه عبدالعلی


In [42]:
df['name'].apply(lambda n: n.split(' '))

0    [جناب, آقای, محمد, طاها, زمانی]
1                    [ساميار, صیادی]
2                    [عسل, ترکاشوند]
3                  [مبینا, خسروجردی]
4                    [عليرضا, صارمی]
5                  [زينب, اکبر, پور]
6                  [محمد, محمد, پور]
7                    [کيان, علیجانی]
8        [سرکار, خانم, سارینا, دایی]
9                  [یگانه, عبدالعلی]
Name: name, dtype: object

In [43]:
df['name'].apply(lambda i: len(i.split()[0])>4)

0    False
1     True
2    False
3     True
4     True
5    False
6    False
7    False
8     True
9     True
Name: name, dtype: bool

In [44]:
from names_dataset import NameDataset, NameWrapper

# The V3 lib takes time to init (the database is massive). Tip: Put it into the init of your app.
nd = NameDataset()

print(nd.search('شقایق')['first_name'])

{'country': {'Afghanistan': 0.309, 'Bahrain': 0.009, 'Iraq': 0.045, 'Iran, Islamic Republic of': 0.582, 'Netherlands': 0.009, 'Norway': 0.009, 'Turkey': 0.036}, 'gender': {'Female': 0.882, 'Male': 0.118}, 'rank': {'Afghanistan': 1637, 'Iran, Islamic Republic of': 2321, 'Bahrain': None, 'Iraq': None, 'Netherlands': None, 'Norway': None, 'Turkey': None}}


In [45]:
df

Unnamed: 0,age,old,name
0,33,True,جناب آقای محمد طاها زمانی
1,54,True,ساميار صیادی
2,20,False,عسل ترکاشوند
3,46,True,مبینا خسروجردی
4,47,True,عليرضا صارمی
5,47,True,زينب اکبر پور
6,22,True,محمد محمد پور
7,47,True,کيان علیجانی
8,18,False,سرکار خانم سارینا دایی
9,51,True,یگانه عبدالعلی


In [46]:
def get_gender(name):
    
    gender = nd.search(name)['first_name'].get('gender')
    if gender is None:
        return None
    
    gender = gender.get('gender')
    if gender.get('Male') > 0.6:
        return 'Male'
    return 'Female'

In [113]:
df['gender'] = df['name'].apply(lambda fn: get_gender(fn))

AttributeError: 'NoneType' object has no attribute 'get'