## Práctica con Pandas

In [1]:
import pandas as pd
import numpy as np

In [2]:
#Cargamos dataset
URL = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(URL)

#Mostramos primeras 5 lineas
dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [13]:
#Creamos dataset

df = pd.DataFrame()

#Agregamos columnas
df['Name'] = ['Johnny','Eadric Streona']
df['Age'] = [31, 43]
df['Driver'] = [True, False]

print(df)

             Name  Age  Driver
0          Johnny   31    True
1  Eadric Streona   43   False


In [33]:
#Para agregar nuevos registros

nuevo_registro = pd.Series(['Absalon',47,True],index=['Name','Age','Driver'])

df2 = df.append(nuevo_registro, ignore_index=True)

print(df2.head(3))

             Name  Age  Driver
0          Johnny   31    True
1  Eadric Streona   43   False
2         Absalon   47    True


In [13]:
#También funciona con diccionarios

population_dict = {'California': 38332521,
 'Texas': 26448193,
 'New York': 19651127,
 'Florida': 19552860,
 'Illinois': 12882135}

#Convierto a serie
population = pd.Series(population_dict)


print(population['New York'])

#Puedo arrastrar (o slice) a través del diccionario
print(population['California':'Florida'])

#Otro ejemplo

area = pd.Series({'California': 423967, 'Texas': 695662,
 'New York': 141297, 'Florida': 170312,
 'Illinois': 149995})

pop = pd.Series({'California': 38332521, 'Texas': 26448193,
 'New York': 19651127, 'Florida': 19552860,
 'Illinois': 12882135})

data = pd.DataFrame({'pop':pop,'area':area})

data['pop']

#Puedo crear nuevas columnas dentro del dataframe

data['density'] = data['pop']/data['area']

print(data['density'])

19651127
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64
California     90.413926
Texas          38.018740
New York      139.076746
Florida       114.806121
Illinois       85.883763
Name: density, dtype: float64


In [39]:
#Para ver solo valores del dataframe
print(data.values)

#Tmb puedo usar loc e iloc para buscar elementos dentro del dataframe
print(data.iloc[:2,:3]) #ej. de iloc

data.loc[:'Illinois',:'density']

#Tmb puedo combinar filtros/criterios con loc e iloc
print(data.loc[data['density'] > 100, ['area','density']])

[[3.83325210e+07 4.23967000e+05 9.04139261e+01]
 [2.64481930e+07 6.95662000e+05 3.80187404e+01]
 [1.96511270e+07 1.41297000e+05 1.39076746e+02]
 [1.95528600e+07 1.70312000e+05 1.14806121e+02]
 [1.28821350e+07 1.49995000e+05 8.58837628e+01]]
                 pop    area    density
California  38332521  423967  90.413926
Texas       26448193  695662  38.018740
            area     density
New York  141297  139.076746
Florida   170312  114.806121


In [42]:
#Describiendo dataset
print(dataframe.describe())

#vemos la forma del dataset
print(dataframe.shape)

#ver primeros 3 registros
print(dataframe.head(3))

#ver últimos 3 registros
print(dataframe.tail(3))


              Age     Survived      SexCode
count  756.000000  1313.000000  1313.000000
mean    30.397989     0.342727     0.351866
std     14.259049     0.474802     0.477734
min      0.170000     0.000000     0.000000
25%     21.000000     0.000000     0.000000
50%     28.000000     0.000000     0.000000
75%     39.000000     1.000000     1.000000
max     71.000000     1.000000     1.000000
(1313, 6)
                                  Name PClass   Age     Sex  Survived  SexCode
0         Allen, Miss Elisabeth Walton    1st  29.0  female         1        1
1          Allison, Miss Helen Loraine    1st   2.0  female         0        1
2  Allison, Mr Hudson Joshua Creighton    1st  30.0    male         0        0
                  Name PClass   Age   Sex  Survived  SexCode
1310  Zenni, Mr Philip    3rd  22.0  male         0        0
1311  Lievens, Mr Rene    3rd  24.0  male         0        0
1312    Zimmerman, Leo    3rd  29.0  male         0        0


In [61]:
#Puedo elegir elementos específicos del df
dataframe.iloc[577] #iloc busca por número de índice

dataframe.iloc[577:580]

#También puedo indicar que el índice sea no numérico.
df3 = dataframe.set_index(dataframe['Name'])

print(df3.loc['Allen, Miss Elisabeth Walton'])

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: Allen, Miss Elisabeth Walton, dtype: object


In [68]:
#Filtrar por un criterio/condición
print(dataframe[dataframe['Sex'] == 'female'].head(2))

#Filtrar por varias condiciones
print(dataframe[(dataframe['Sex'] == 'female') & (dataframe['Age'] >= 20)])

                           Name PClass   Age     Sex  Survived  SexCode
0  Allen, Miss Elisabeth Walton    1st  29.0  female         1        1
1   Allison, Miss Helen Loraine    1st   2.0  female         0        1
                                                Name PClass   Age     Sex  \
0                       Allen, Miss Elisabeth Walton    1st  29.0  female   
3      Allison, Mrs Hudson JC (Bessie Waldo Daniels)    1st  25.0  female   
6                   Andrews, Miss Kornelia Theodosia    1st  63.0  female   
8       Appleton, Mrs Edward Dale (Charlotte Lamson)    1st  58.0  female   
15    Baxter, Mrs James (Helene DeLaudeniere Chaput)    1st  50.0  female   
...                                              ...    ...   ...     ...   
1014                          Melkebuk, Mrs Philemon    3rd  23.0  female   
1264                             Turkula, Mrs Hedvig    3rd  63.0  female   
1271                       Van der Planke, Mrs Jules    3rd  31.0  female   
1278          

In [48]:
#Para reemplazar valores del dataframe
print(dataframe['Sex'].replace('female','woman').head(2))

#Puedo tmb reemplazar varios valores
print(dataframe['Sex'].replace(['female','male'],['woman','man']).head(10))

0    woman
1    woman
Name: Sex, dtype: object
0    woman
1    woman
2      man
3    woman
4      man
5      man
6    woman
7      man
8    woman
9      man
Name: Sex, dtype: object


In [14]:
#Tmb puedo usar 'import re' regex para reemplazar algún carácter en particular
import re

#Antes
print(dataframe['Name'].head(15))

#Después
print(dataframe.Name.str.replace(re.compile("[\(\)]"), "").head(15))

0                         Allen, Miss Elisabeth Walton
1                          Allison, Miss Helen Loraine
2                  Allison, Mr Hudson Joshua Creighton
3        Allison, Mrs Hudson JC (Bessie Waldo Daniels)
4                        Allison, Master Hudson Trevor
5                                   Anderson, Mr Harry
6                     Andrews, Miss Kornelia Theodosia
7                               Andrews, Mr Thomas, jr
8         Appleton, Mrs Edward Dale (Charlotte Lamson)
9                               Artagaveytia, Mr Ramon
10                           Astor, Colonel John Jacob
11    Astor, Mrs John Jacob (Madeleine Talmadge Force)
12                        Aubert, Mrs Leontine Pauline
13                            Barkworth, Mr Algernon H
14                                  Baumann, Mr John D
Name: Name, dtype: object
0                       Allen, Miss Elisabeth Walton
1                        Allison, Miss Helen Loraine
2                Allison, Mr Hudson Joshua 

In [23]:
#Cambiar nombre de las columnas
print(dataframe.rename(columns={'PClass':'PassengerClass','Sex':'Gender'}).head(2))

#Tmb puedo crear un diccionario con 'import collections'y cambiarlas todas de un saque con los valores que yo le asigne
import collections
column_names = collections.defaultdict(str)

for name in dataframe.columns:
    column_names[name]

column_names

                           Name PassengerClass   Age  Gender  Survived  \
0  Allen, Miss Elisabeth Walton            1st  29.0  female         1   
1   Allison, Miss Helen Loraine            1st   2.0  female         0   

   SexCode  
0        1  
1        1  


defaultdict(str,
            {'Name': '',
             'PClass': '',
             'Age': '',
             'Sex': '',
             'Survived': '',
             'SexCode': ''})

In [27]:
#Funciones de agregación
print('Máximo: ', dataframe['Age'].max())
print('Mínimo: ', dataframe['Age'].min())
print('Media: ', dataframe['Age'].mean())
print('Suma: ', dataframe['Age'].sum())
print('Conteo: ', dataframe['Age'].count())
print('Varianza: ', dataframe['Age'].var())
print('Desvío Standard: ', dataframe['Age'].std())
print('Kurtosis: ', dataframe['Age'].kurt())
print('Asimetría: ', dataframe['Age'].skew())
print('Error Standard de la media: ', dataframe['Age'].sem())
print('Moda: ', dataframe['Age'].mode())
print('Mediana: ', dataframe['Age'].median())


#Tmb puedo aplicarlas a nivel dataframe
dataframe.count()

Máximo:  71.0
Mínimo:  0.17
Media:  30.397989417989415
Suma:  22980.88
Conteo:  756
Varianza:  203.32047012439133
Desvío Standard:  14.259048710359023
Kurtosis:  -0.036536168924722556
Asimetría:  0.36851087371648295
Error Standard de la media:  0.5185965877244657
Moda:  0    22.0
dtype: float64
Mediana:  28.0


Name        1313
PClass      1313
Age          756
Sex         1313
Survived    1313
SexCode     1313
dtype: int64

In [35]:
#Valores únicos
print(dataframe['Sex'].unique())

#Número de valores únicos
print(dataframe['Sex'].nunique()) #2, male y female

#Valores únicos y contados
print(dataframe['Sex'].value_counts())

['female' 'male']
2
male      851
female    462
Name: Sex, dtype: int64


In [18]:
#GroupBy
#En este caso agrupamos por Sexo y pedimos la media de todas las columnas (claramente sólo las que tienen números)
print(dataframe.groupby('Sex').mean())

#Puedo tmb aplicar operaciones para simples columnas
print(dataframe.groupby('Survived')['Name'].count()) #En este caso contamos la cantiddad de pasajeros por categoría 'Survived'

#Puedo tmb agrupar por más de una categoría
print(dataframe.groupby(['Sex','Survived'])['Age'].mean()) #Acá agrupamos por Sexo y Survived, luego le pedimos que nos calcules las edades promedio

              Age  Survived  SexCode
Sex                                 
female  29.396424  0.666667      1.0
male    31.014338  0.166863      0.0
Survived
0    863
1    450
Name: Name, dtype: int64
Sex     Survived
female  0           24.901408
        1           30.867143
male    0           32.320780
        1           25.951875
Name: Age, dtype: float64


In [33]:
## Aggregate, filter, transform, apply con GroupBy
#Primero creamos un mini Dataframe
rng = np.random.RandomState(0)
df6 = pd.DataFrame({'Key':['A','B','C','A','B','C']
                    ,'data1': range(6)
                    ,'data2':rng.randint(0,10,6)}
                   ,columns=['Key','data1','data2']
                  )

#Con aggregate puedo, justamente, agregar varias funciones dentro del mismo GroupBy
print(df6.groupby('Key').aggregate([min,np.median,'max']))

#Tmb lo puedo pasar en formato diccionario

print(df6.groupby('Key').aggregate({'data1': 'min',
                                  'data2': 'max'}))

#Filter - Tener en cuenta que el argumento de filter es sí o sí una función. Lo que hace es filtrar por una determinada función
def filter_func(x):
    return x['data2'].std() > 4 #Creo una función para que sólo traiga los valores que tengan el devío standard mayor a 4

print(df6.groupby('Key').std()) #Vemos el desvío standard antes de filtrar
print(df6.groupby('Key').filter(filter_func)) #Lo vemos filtrado por la función filter_func y comprobamos que realmente funciona
print(df6.groupby('Key').filter(lambda x: x['data2'].std() > 4)) #Otra forma de filtro usando función lambda


#Transformation - Me permite realizar transformaciones a lo largo de los valores del df
print(df6.groupby('Key').transform(lambda x: x - x.mean()))


#Apply - Hace que pueda aplicar cualquier función random para con el dataframe
print(df6.groupby('Key').apply(lambda x: x - x.mean()))

    data1            data2           
      min median max   min median max
Key                                  
A       0    1.5   3     3    4.0   5
B       1    2.5   4     0    3.5   7
C       2    3.5   5     3    6.0   9
     data1  data2
Key              
A        0      5
B        1      7
C        2      9
       data1     data2
Key                   
A    2.12132  1.414214
B    2.12132  4.949747
C    2.12132  4.242641
  Key  data1  data2
1   B      1      0
2   C      2      3
4   B      4      7
5   C      5      9
  Key  data1  data2
1   B      1      0
2   C      2      3
4   B      4      7
5   C      5      9
   data1  data2
0   -1.5    1.0
1   -1.5   -3.5
2   -1.5   -3.0
3    1.5   -1.0
4    1.5    3.5
5    1.5    3.0
   Key  data1  data2
0  NaN   -1.5    1.0
1  NaN   -1.5   -3.5
2  NaN   -1.5   -3.0
3  NaN    1.5   -1.0
4  NaN    1.5    3.5
5  NaN    1.5    3.0


In [21]:
#Manejo de NAs

print(dataframe[dataframe['Age'].isnull()].head(2)) #Muestro los primeros 2 registros de la columna 'Age' con los valores nulos

print(dataframe[dataframe['Age'].notnull()].head(2)) #Muestro los primeros registros de la columna 'Age con valores no nulos'

#para usar dropna creo otro df
dataframe2 = dataframe['Age'].dropna()

print(dataframe2.head(15)) #efectivamente, en este caso podemos ver cómo se removieron los registros 12, 13 y 14

print(dataframe['Age'].fillna(0).head(15)) #con finllna(method='ffill') para rellenar con valores de atrás para adelante, y finllna(method='bfill') de adelante para atrás

#Tmb puedo aclarar desde el principio en el parámetro re read_csv cuando estoy abriendo el archivo df = pd.read_csv("file.csv", na_values=["N/A", "not available"])




                            Name PClass  Age     Sex  Survived  SexCode
12  Aubert, Mrs Leontine Pauline    1st  NaN  female         1        1
13      Barkworth, Mr Algernon H    1st  NaN    male         1        0
                           Name PClass   Age     Sex  Survived  SexCode
0  Allen, Miss Elisabeth Walton    1st  29.0  female         1        1
1   Allison, Miss Helen Loraine    1st   2.0  female         0        1
0     29.00
1      2.00
2     30.00
3     25.00
4      0.92
5     47.00
6     63.00
7     39.00
8     58.00
9     71.00
10    47.00
11    19.00
15    50.00
16    24.00
17    36.00
Name: Age, dtype: float64
0     29.00
1      2.00
2     30.00
3     25.00
4      0.92
5     47.00
6     63.00
7     39.00
8     58.00
9     71.00
10    47.00
11    19.00
12     0.00
13     0.00
14     0.00
Name: Age, dtype: float64


In [32]:
#Remover columnas del df
print(dataframe.drop(['Age','Sex'], axis=1).head(2)) #Si no sé el nombre de la columna puedo hacerlo por el índice

print(dataframe.drop(dataframe.columns[0],axis=1).head(2))

#Remover filas del df
dataframe[dataframe['Sex'] != 'male'].head(2) #Sacamos todos los 'male'

dataframe[dataframe.index != 3].head(5)

                           Name PClass  Survived  SexCode
0  Allen, Miss Elisabeth Walton    1st         1        1
1   Allison, Miss Helen Loraine    1st         0        1
  PClass   Age     Sex  Survived  SexCode
0    1st  29.0  female         1        1
1    1st   2.0  female         0        1


Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
5,"Anderson, Mr Harry",1st,47.0,male,1,0


In [6]:
#Remover duplicados
dataframe.drop_duplicates().head(2)

#Al parecer no hizo noda... y realmente no quitó ningún duplicado porque los registros del dataframe son únicos:

print('Number of rows before duplicate function', len(dataframe))
print('Number of rows after duplicate function',len(dataframe.drop_duplicates()))#Esto ocurre porque efectivamente el dataframe contiene registros únicos. Sin embargo, podemos aplicar el argumento 'Subset' para que elimine cierta categoría repetida:

print(dataframe.drop_duplicates(subset=['Sex'],keep='last')) #Keep='last' para que empiece de abajo para arriba, sino sería 'first'

Number of rows before duplicate function 1313
Number of rows after duplicate function 1313
                     Name PClass   Age     Sex  Survived  SexCode
1307  Zabour, Miss Tamini    3rd   NaN  female         0        1
1312       Zimmerman, Leo    3rd  29.0    male         0        0


In [16]:
#Pivoteando tablas

df7 = dataframe.pivot_table('Survived',index='Sex',columns= 'PClass')

print(df7) #Por default, se aplica la media

#Tmb puedo agregar más niveles de agregación

age = pd.cut(dataframe['Age'],[0, 18, 80])

df7 = dataframe.pivot_table('Survived',index= ['Sex',age],columns='PClass')

print(df7)

#Puedo tmb hacer particiones por cuartiles usando qcut

age = pd.qcut(dataframe['Age'],4) #Cantidad de cuartiles
              
df7 = dataframe.pivot_table('Survived',index=['Sex',age],columns='PClass')

print(df7)

#Puedo tmb realizar varias funciones de agragación en la misma pivot

df7 = dataframe.pivot_table(index=['Sex'],columns=['PClass'], aggfunc={'Survived':np.std,'Age':np.mean})

print(df7)

#Por último, puedo sumarizar los totales de filas y columnas, dependiendo de la función de agregación elegida, con el parámetro margins

df7 = dataframe.pivot_table('Age',index='Sex',columns='PClass',aggfunc={'Age':max},margins=True)

print(df7)

PClass    *       1st       2nd       3rd
Sex                                      
female  NaN  0.937063  0.878505  0.377358
male    0.0  0.329609  0.145349  0.116232
PClass                1st       2nd       3rd
Sex    Age                                   
female (0, 18]   0.900000  0.944444  0.487179
       (18, 80]  0.956044  0.865672  0.428571
male   (0, 18]   0.857143  0.611111  0.205882
       (18, 80]  0.313559  0.091743  0.137363
PClass                     1st       2nd       3rd
Sex    Age                                        
female (0.169, 21.0]  0.944444  0.960000  0.460000
       (21.0, 28.0]   0.937500  0.809524  0.416667
       (28.0, 39.0]   0.952381  0.875000  0.473684
       (39.0, 71.0]   0.956522  0.866667  0.444444
male   (0.169, 21.0]  0.700000  0.406250  0.191176
       (21.0, 28.0]   0.529412  0.088235  0.140845
       (28.0, 39.0]   0.387097  0.108108  0.156863
       (39.0, 71.0]   0.223881  0.041667  0.038462
              Age                        Survi

In [20]:
#Concatenando

#Tengo dos diccionarios

data_a = {'id':[1, 2, 3]
          ,'first Name': ['Juan', 'Pablo', 'Diego']
         ,'last name': ['Lauricella', 'Colugnatti','Lena']
         }

data_b ={'id':[4, 5, 6]
          ,'first Name': ['Johnny', 'Andrés', 'Cristina']
         ,'last name': ['Lauricella', 'Alvarellos','Fabbri']
         }

dataframe_a = pd.DataFrame(data_a,columns=['id','first name', 'last name'])

dataframe_b = pd.DataFrame(data_b,columns=['id','first name','last name'])

#concatenando por filas
data_all = pd.concat([dataframe_a,dataframe_b],axis=0)

data_all


Unnamed: 0,id,first name,last name
0,1,,Lauricella
1,2,,Colugnatti
2,3,,Lena
0,4,,Lauricella
1,5,,Alvarellos
2,6,,Fabbri


In [5]:
#Concatenando

#Tengo dos diccionarios

data_a = {'id':[1, 2, 3]
          ,'first Name': ['Juan', 'Pablo', 'Diego']
         ,'last name': ['Lauricella', 'Colugnatti','Lena']
         }

data_b ={'id':[4, 5, 6]
          ,'first Name': ['Johnny', 'Andrés', 'Cristina']
         ,'last name': ['Lauricella', 'Alvarellos','Fabbri']
         }

dataframe_a = pd.DataFrame(data_a,columns=['id','first Name', 'last name'])

dataframe_b = pd.DataFrame(data_b,columns=['id','first Name','last name'])

#concatenando por filas
data_all = pd.concat([dataframe_a,dataframe_b],axis=0).reset_index(drop=True)

print(data_all)

#concatendando por columnas

data_all = pd.concat([dataframe_a,dataframe_b],axis=1).reset_index(drop=True)

print(data_all)

   id first Name   last name
0   1       Juan  Lauricella
1   2      Pablo  Colugnatti
2   3      Diego        Lena
3   4     Johnny  Lauricella
4   5     Andrés  Alvarellos
5   6   Cristina      Fabbri
   id first Name   last name  id first Name   last name
0   1       Juan  Lauricella   4     Johnny  Lauricella
1   2      Pablo  Colugnatti   5     Andrés  Alvarellos
2   3      Diego        Lena   6   Cristina      Fabbri


In [14]:
#Merging
employee_data_a = {'employee_id': [1, 2, 3, 4]
                   ,'name': ['Amy Jones', 'Allen Keys', 'Alice Bees','Tim Horton']
                  }
df_employees_a = pd.DataFrame(employee_data_a,columns=['employee_id','name'])

employee_data_b = {'employee_id': [3,4,5,6]
                  ,'total_sales': [23456, 2512, 2345, 1455]}

df_employees_b = pd.DataFrame(employee_data_b,columns=['employee_id','total_sales'])

SalesEmployees = pd.merge(df_employees_a,df_employees_b,on='employee_id',how='inner') #inner join

print(SalesEmployees)

print(''*4)


SalesEmployees = pd.merge(df_employees_a,df_employees_b, on='employee_id', how='left') #left join

print(SalesEmployees)

SalesEmployees = pd.merge(df_employees_a,df_employees_b, on='employee_id', how='right')
print(''*4)
print(SalesEmployees)

   employee_id        name  total_sales
0            3  Alice Bees        23456
1            4  Tim Horton         2512

   employee_id        name  total_sales
0            1   Amy Jones          NaN
1            2  Allen Keys          NaN
2            3  Alice Bees      23456.0
3            4  Tim Horton       2512.0

   employee_id        name  total_sales
0            3  Alice Bees        23456
1            4  Tim Horton         2512
2            5         NaN         2345
3            6         NaN         1455


In [26]:
#Trabajando con fechas

#from datetime import datetime

date = pd.to_datetime('16 February 2023') #Convierto a timestamp parseando el argumento

#Tmb funciona con varias fechas

dates = pd.to_datetime([datetime(2015,7,3), '4th of July 2015','2015-Jul-6','07/07/2015','20150708'])

print(dates)

print('')

print(date.strftime('%A')) # strftime devuelve la fecha en formato string. %A devuelve el día de la semana, en este caso Jueves. Para más documentación ir a https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

print('')

print(date + pd.to_timedelta(np.arange(12),'D')) # Se pueden crear rangos de fechas variandolas cada X período. En este caso usé 'D' de días en un rango de 12 días seguidos

#idexando por tiempo

Index = pd.DatetimeIndex(['2014-07-04', '2014-08-04','2015-07-04', '2015-08-04'])

Index

data = pd.Series([1, 2, 3, 4],index = Index)

print(data)

#Ahora puedo puedo invocarlos de las siguiente formas habiendo establecido el índice de fechas

#print('')
print(data['2015'])
#print('')
print(data['2014-07-04':'2015-07-04'])
#print('')
#Tmb existe la función date_range() para calcular generar intervalos de tiempo específicos

print(pd.date_range('2015-07-03', '2015-07-10'))
#print('')
print(pd.date_range('2015-07-03', periods=8,freq='H')) #En este caso aclaramos que son 8 períodos medidos en horas a partir de la fecha establecida en el primer argumento

#Tmb están las funciones period_range y timedelta_range:
print(pd.period_range('2015-07',periods=8,freq='M'))
print('')
print(pd.timedelta_range(0, periods=10,freq='H'))

#Para más información https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html



DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-06', '2015-07-07',
               '2015-07-08'],
              dtype='datetime64[ns]', freq=None)

Thursday

DatetimeIndex(['2023-02-16', '2023-02-17', '2023-02-18', '2023-02-19',
               '2023-02-20', '2023-02-21', '2023-02-22', '2023-02-23',
               '2023-02-24', '2023-02-25', '2023-02-26', '2023-02-27'],
              dtype='datetime64[ns]', freq=None)
2014-07-04    1
2014-08-04    2
2015-07-04    3
2015-08-04    4
dtype: int64
2015-07-04    3
2015-08-04    4
dtype: int64
2014-07-04    1
2014-08-04    2
2015-07-04    3
dtype: int64
DatetimeIndex(['2015-07-03', '2015-07-04', '2015-07-05', '2015-07-06',
               '2015-07-07', '2015-07-08', '2015-07-09', '2015-07-10'],
              dtype='datetime64[ns]', freq='D')
DatetimeIndex(['2015-07-03 00:00:00', '2015-07-03 01:00:00',
               '2015-07-03 02:00:00', '2015-07-03 03:00:00',
               '2015-07-03 04:00:00', '2015-07-03 05:00:00',
               '201