# Creating data with Numpy and Pandas

In [1]:
import numpy as np
import pandas as pd

## Numpy
Basic functions to generate numerical data

In [2]:
np.random.rand(6,2)

array([[0.06319761, 0.23213221],
       [0.70839339, 0.52986926],
       [0.99723344, 0.82742725],
       [0.99058025, 0.81583688],
       [0.45473797, 0.32354369],
       [0.0530581 , 0.11055472]])

In [3]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [4]:
np.zeros((5,2))

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [5]:
np.ones((2,2))

array([[1., 1.],
       [1., 1.]])

In [6]:
# np.arange(start,stop,interval)
np.arange(1,9,1)

array([1, 2, 3, 4, 5, 6, 7, 8])

In [7]:
a=np.arange(1,5,1)
b=np.arange(5,9,1)
np.concatenate((a, b))

array([1, 2, 3, 4, 5, 6, 7, 8])

## Pandas


In [8]:
pd.date_range(start="1/1/2018", periods=12, freq='M')

DatetimeIndex(['2018-01-31', '2018-02-28', '2018-03-31', '2018-04-30',
               '2018-05-31', '2018-06-30', '2018-07-31', '2018-08-31',
               '2018-09-30', '2018-10-31', '2018-11-30', '2018-12-31'],
              dtype='datetime64[ns]', freq='M')

In [9]:
pd.date_range(start="1/1/2018", periods=12, freq=pd.offsets.MonthBegin())

DatetimeIndex(['2018-01-01', '2018-02-01', '2018-03-01', '2018-04-01',
               '2018-05-01', '2018-06-01', '2018-07-01', '2018-08-01',
               '2018-09-01', '2018-10-01', '2018-11-01', '2018-12-01'],
              dtype='datetime64[ns]', freq='MS')

In [10]:
col1=pd.date_range(start="1/1/2018", periods=100)
col2=(100*(np.random.rand(100))).round()
data={'Dates':col1,'Values':col2}
df=pd.DataFrame(data)
df.head()

Unnamed: 0,Dates,Values
0,2018-01-01,72.0
1,2018-01-02,70.0
2,2018-01-03,40.0
3,2018-01-04,38.0
4,2018-01-05,40.0


## Functions to create larger data sets

In [11]:
def dupInt(start, stop, inter, dups):
    outp=[]
    for x in range(dups):
        outp=np.concatenate((outp, np.arange(start,stop,inter)))
        x+=1
    return outp

def randInt(start, stop, inter, numret):
    arr=dupInt(start, stop, inter, numret)
    while len(arr) > numret:
        arr = np.delete(arr,round((len(arr)-1)*np.random.rand()-1))
    return arr

In [12]:
arr = dupInt(1,9,1,15)
arr

array([1., 2., 3., 4., 5., 6., 7., 8., 1., 2., 3., 4., 5., 6., 7., 8., 1.,
       2., 3., 4., 5., 6., 7., 8., 1., 2., 3., 4., 5., 6., 7., 8., 1., 2.,
       3., 4., 5., 6., 7., 8., 1., 2., 3., 4., 5., 6., 7., 8., 1., 2., 3.,
       4., 5., 6., 7., 8., 1., 2., 3., 4., 5., 6., 7., 8., 1., 2., 3., 4.,
       5., 6., 7., 8., 1., 2., 3., 4., 5., 6., 7., 8., 1., 2., 3., 4., 5.,
       6., 7., 8., 1., 2., 3., 4., 5., 6., 7., 8., 1., 2., 3., 4., 5., 6.,
       7., 8., 1., 2., 3., 4., 5., 6., 7., 8., 1., 2., 3., 4., 5., 6., 7.,
       8.])

In [13]:
randInt(1,9,1,15)

array([7., 6., 3., 1., 6., 3., 6., 3., 5., 8., 2., 1., 3., 7., 7.])

In [14]:
def dupDates(start, periods, dups):
    outp=[]
    for x in range(dups):
        dates=pd.date_range(start=start, periods=periods)
        outp.extend(dates)
        x+=1
    return outp

def randDates(start, periods, numret):
    arr=dupDates(start, periods, (numret))    
    while len(arr) > numret:
        arr.pop(round((len(arr)-1)*np.random.rand()-1))
    return arr

In [15]:
df=pd.DataFrame({'Dates':dupDates("1/1/2018",10,3)})
df.head()

Unnamed: 0,Dates
0,2018-01-01
1,2018-01-02
2,2018-01-03
3,2018-01-04
4,2018-01-05


In [16]:
df=pd.DataFrame({"dates":randDates("1/1/2018",30,50)})
df.head()

Unnamed: 0,dates
0,2018-01-15
1,2018-01-22
2,2018-01-05
3,2018-01-24
4,2018-01-04


## Creating a Dataframe of Random Values

Here we pull together all of the functions from above to create a random range of dates and varying ranges of small and large integers

In [17]:
data={
    'dates':randDates("1/1/2018",30,50),
    'small_values':randInt(10,60,3.14,50),
    'large_values':randInt(100,500,4.999,50)
}
df2=pd.DataFrame(data)
df2.head()

Unnamed: 0,dates,small_values,large_values
0,2018-01-20,19.42,439.932
1,2018-01-02,25.7,244.971
2,2018-01-05,44.54,284.963
3,2018-01-20,50.82,299.96
4,2018-01-22,28.84,239.972
