### Manipulación y transformación de datos I

In [6]:
import pandas as pd
import numpy as np

rubros = ['vestuario', 'calzado', 'hogar']
n_rubros = len(rubros)

#Creo dataframe de los rubros de venta

df = pd.DataFrame({
    'id':range(0,n_rubros), 
    'des_rubro':rubros
})
df

Unnamed: 0,id,des_rubro
0,0,vestuario
1,1,calzado
2,2,hogar


In [7]:
# Genero 100 ventas

n_ventas = 100

df_ventas = pd.DataFrame({
    'id':range(0,n_ventas),
    'rubro': np.random.randint(0,n_rubros,n_ventas),
    'precio': np.random.randint(2400,10000,n_ventas),
    'cantidad':np.random.randint(1,7,n_ventas)
})

df_ventas.head()

Unnamed: 0,id,rubro,precio,cantidad
0,0,0,3645,1
1,1,2,6821,1
2,2,1,8554,2
3,3,2,5403,5
4,4,1,5358,5


In [8]:
df_merged = df_ventas.merge(df,left_on='rubro', right_on='id', validate='many_to_one')
df_merged

Unnamed: 0,id_x,rubro,precio,cantidad,id_y,des_rubro
0,0,0,3645,1,0,vestuario
1,1,2,6821,1,2,hogar
2,2,1,8554,2,1,calzado
3,3,2,5403,5,2,hogar
4,4,1,5358,5,1,calzado
...,...,...,...,...,...,...
95,95,0,4494,2,0,vestuario
96,96,1,8348,3,1,calzado
97,97,1,2478,2,1,calzado
98,98,2,9863,4,2,hogar


### Duplicados

In [9]:
df = df_merged
df

Unnamed: 0,id_x,rubro,precio,cantidad,id_y,des_rubro
0,0,0,3645,1,0,vestuario
1,1,2,6821,1,2,hogar
2,2,1,8554,2,1,calzado
3,3,2,5403,5,2,hogar
4,4,1,5358,5,1,calzado
...,...,...,...,...,...,...
95,95,0,4494,2,0,vestuario
96,96,1,8348,3,1,calzado
97,97,1,2478,2,1,calzado
98,98,2,9863,4,2,hogar


In [11]:
df.drop_duplicates()

Unnamed: 0,id_x,rubro,precio,cantidad,id_y,des_rubro
0,0,0,3645,1,0,vestuario
1,1,2,6821,1,2,hogar
2,2,1,8554,2,1,calzado
3,3,2,5403,5,2,hogar
4,4,1,5358,5,1,calzado
...,...,...,...,...,...,...
95,95,0,4494,2,0,vestuario
96,96,1,8348,3,1,calzado
97,97,1,2478,2,1,calzado
98,98,2,9863,4,2,hogar


In [13]:
df[df.duplicated()]

Unnamed: 0,id_x,rubro,precio,cantidad,id_y,des_rubro


In [16]:
df.duplicated(subset=['rubro'])

0     False
1     False
2     False
3      True
4      True
      ...  
95     True
96     True
97     True
98     True
99     True
Length: 100, dtype: bool

### Datos faltantes

In [17]:
np.nan, type(np.nan)

(nan, float)

In [20]:
df[df['rubro'].isna()]

Unnamed: 0,id_x,rubro,precio,cantidad,id_y,des_rubro


In [21]:
df.isna().sum()

id_x         0
rubro        0
precio       0
cantidad     0
id_y         0
des_rubro    0
dtype: int64

In [25]:
df.dropna(axis=0)

Unnamed: 0,id_x,rubro,precio,cantidad,id_y,des_rubro
0,0,0,3645,1,0,vestuario
1,1,2,6821,1,2,hogar
2,2,1,8554,2,1,calzado
3,3,2,5403,5,2,hogar
4,4,1,5358,5,1,calzado
...,...,...,...,...,...,...
95,95,0,4494,2,0,vestuario
96,96,1,8348,3,1,calzado
97,97,1,2478,2,1,calzado
98,98,2,9863,4,2,hogar


In [26]:
df.fillna(0)

Unnamed: 0,id_x,rubro,precio,cantidad,id_y,des_rubro
0,0,0,3645,1,0,vestuario
1,1,2,6821,1,2,hogar
2,2,1,8554,2,1,calzado
3,3,2,5403,5,2,hogar
4,4,1,5358,5,1,calzado
...,...,...,...,...,...,...
95,95,0,4494,2,0,vestuario
96,96,1,8348,3,1,calzado
97,97,1,2478,2,1,calzado
98,98,2,9863,4,2,hogar


### Metodo APPLY

In [28]:
df['rubro'].apply(lambda x: x+1) #Para cada uno de los valores de 'rubro' le suma 1

0     1
1     3
2     2
3     3
4     2
     ..
95    1
96    2
97    2
98    3
99    2
Name: rubro, Length: 100, dtype: int64

In [30]:
df['id_x'].apply(lambda x: x +1 if x>8 else x)
df

Unnamed: 0,id_x,rubro,precio,cantidad,id_y,des_rubro
0,0,0,3645,1,0,vestuario
1,1,2,6821,1,2,hogar
2,2,1,8554,2,1,calzado
3,3,2,5403,5,2,hogar
4,4,1,5358,5,1,calzado
...,...,...,...,...,...,...
95,95,0,4494,2,0,vestuario
96,96,1,8348,3,1,calzado
97,97,1,2478,2,1,calzado
98,98,2,9863,4,2,hogar


In [31]:
df.applymap(lambda x: x.upper() if type(x) == str else x/2)

  df.applymap(lambda x: x.upper() if type(x) == str else x/2)


Unnamed: 0,id_x,rubro,precio,cantidad,id_y,des_rubro
0,0.0,0.0,1822.5,0.5,0.0,VESTUARIO
1,0.5,1.0,3410.5,0.5,1.0,HOGAR
2,1.0,0.5,4277.0,1.0,0.5,CALZADO
3,1.5,1.0,2701.5,2.5,1.0,HOGAR
4,2.0,0.5,2679.0,2.5,0.5,CALZADO
...,...,...,...,...,...,...
95,47.5,0.0,2247.0,1.0,0.0,VESTUARIO
96,48.0,0.5,4174.0,1.5,0.5,CALZADO
97,48.5,0.5,1239.0,1.0,0.5,CALZADO
98,49.0,1.0,4931.5,2.0,1.0,HOGAR


### Reemplazar datos

In [34]:
df = pd.read_excel('DataFrame.xlsx')
df

Unnamed: 0.1,Unnamed: 0,ID,Rol,Sexo,Edad,Fecha,Hora,Comuna,Participantes,Victima,Acusado,Día de semana
0,461,2019-0026,PEATON,MASCULINO,0,2019-03-28,7,8,PEATON-PASAJEROS,PEATON,PASAJEROS,Jueves
1,631,2021-0012,PEATON,MASCULINO,0,2021-01-29,20,8,PEATON-AUTO,PEATON,AUTO,Viernes
2,30,2016-0041,PASAJERO_ACOMPAÑANTE,MASCULINO,0,2016-03-29,11,7,MOTO-CARGAS,MOTO,CARGAS,Martes
3,530,2019-0095,CONDUCTOR,MASCULINO,0,2019-11-20,15,1,MOTO-CARGAS,MOTO,CARGAS,Miercoles
4,529,2019-0094,PASAJERO_ACOMPAÑANTE,FEMENINO,0,2019-11-18,14,15,MOTO-OTRO,MOTO,OTRO,Lunes
...,...,...,...,...,...,...,...,...,...,...,...,...
712,690,2021-0071,PEATON,MASCULINO,88,2021-08-31,16,3,PEATON-MOTO,PEATON,MOTO,Martes
713,594,2020-0055,PEATON,MASCULINO,91,2020-11-19,12,12,PEATON-CARGAS,PEATON,CARGAS,Jueves
714,566,2020-0028,PEATON,MASCULINO,91,2020-05-19,10,15,PEATON-PASAJEROS,PEATON,PASAJEROS,Martes
715,524,2019-0089,PEATON,FEMENINO,92,2019-10-23,15,4,PEATON-CARGAS,PEATON,CARGAS,Miercoles


In [38]:
# Reemplazar un elemento específico

df.replace('PASAJEROS','PASAJERO')

# Haciendolo de esta forma no quedá guardado en df, tendría que definir df o agregar , inplace=True

Unnamed: 0.1,Unnamed: 0,ID,Rol,Sexo,Edad,Fecha,Hora,Comuna,Participantes,Victima,Acusado,Día de semana
0,461,2019-0026,PEATON,MASCULINO,0,2019-03-28,7,8,PEATON-PASAJEROS,PEATON,PASAJERO,Jueves
1,631,2021-0012,PEATON,MASCULINO,0,2021-01-29,20,8,PEATON-AUTO,PEATON,AUTO,Viernes
2,30,2016-0041,PASAJERO_ACOMPAÑANTE,MASCULINO,0,2016-03-29,11,7,MOTO-CARGAS,MOTO,CARGAS,Martes
3,530,2019-0095,CONDUCTOR,MASCULINO,0,2019-11-20,15,1,MOTO-CARGAS,MOTO,CARGAS,Miercoles
4,529,2019-0094,PASAJERO_ACOMPAÑANTE,FEMENINO,0,2019-11-18,14,15,MOTO-OTRO,MOTO,OTRO,Lunes
...,...,...,...,...,...,...,...,...,...,...,...,...
712,690,2021-0071,PEATON,MASCULINO,88,2021-08-31,16,3,PEATON-MOTO,PEATON,MOTO,Martes
713,594,2020-0055,PEATON,MASCULINO,91,2020-11-19,12,12,PEATON-CARGAS,PEATON,CARGAS,Jueves
714,566,2020-0028,PEATON,MASCULINO,91,2020-05-19,10,15,PEATON-PASAJEROS,PEATON,PASAJERO,Martes
715,524,2019-0089,PEATON,FEMENINO,92,2019-10-23,15,4,PEATON-CARGAS,PEATON,CARGAS,Miercoles


In [39]:
df.replace({'Día de semana': r'Martes'}, {'Día de semana': 'Mondongo'}, regex=True)

Unnamed: 0.1,Unnamed: 0,ID,Rol,Sexo,Edad,Fecha,Hora,Comuna,Participantes,Victima,Acusado,Día de semana
0,461,2019-0026,PEATON,MASCULINO,0,2019-03-28,7,8,PEATON-PASAJEROS,PEATON,PASAJEROS,Jueves
1,631,2021-0012,PEATON,MASCULINO,0,2021-01-29,20,8,PEATON-AUTO,PEATON,AUTO,Viernes
2,30,2016-0041,PASAJERO_ACOMPAÑANTE,MASCULINO,0,2016-03-29,11,7,MOTO-CARGAS,MOTO,CARGAS,Mondongo
3,530,2019-0095,CONDUCTOR,MASCULINO,0,2019-11-20,15,1,MOTO-CARGAS,MOTO,CARGAS,Miercoles
4,529,2019-0094,PASAJERO_ACOMPAÑANTE,FEMENINO,0,2019-11-18,14,15,MOTO-OTRO,MOTO,OTRO,Lunes
...,...,...,...,...,...,...,...,...,...,...,...,...
712,690,2021-0071,PEATON,MASCULINO,88,2021-08-31,16,3,PEATON-MOTO,PEATON,MOTO,Mondongo
713,594,2020-0055,PEATON,MASCULINO,91,2020-11-19,12,12,PEATON-CARGAS,PEATON,CARGAS,Jueves
714,566,2020-0028,PEATON,MASCULINO,91,2020-05-19,10,15,PEATON-PASAJEROS,PEATON,PASAJEROS,Mondongo
715,524,2019-0089,PEATON,FEMENINO,92,2019-10-23,15,4,PEATON-CARGAS,PEATON,CARGAS,Miercoles


___

### Discretización de datos

Metodo pd.cut()


In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   Unnamed: 0     717 non-null    int64   
 1   ID             717 non-null    object  
 2   Rol            717 non-null    object  
 3   Sexo           717 non-null    object  
 4   Edad           717 non-null    int64   
 5   Fecha          717 non-null    object  
 6   Hora           717 non-null    int64   
 7   Comuna         717 non-null    int64   
 8   Participantes  717 non-null    object  
 9   Victima        708 non-null    object  
 10  Acusado        694 non-null    object  
 11  Día de semana  717 non-null    object  
 12  GrupoEdad      634 non-null    category
dtypes: category(1), int64(4), object(8)
memory usage: 68.4+ KB


In [49]:
# Discretizar las edades en intervalos

intervalos = [-1,20,40,60,100]
# Definir etiquetas
etiquetas= ['Niño','Adolecente','Adulto','Veterano-anciano']

# Discretizar y devolver valores en lugar de intervalos
df['GrupoEdad'] = pd.cut(df['Edad'], bins=intervalos, labels=etiquetas)

df

Unnamed: 0.1,Unnamed: 0,ID,Rol,Sexo,Edad,Fecha,Hora,Comuna,Participantes,Victima,Acusado,Día de semana,GrupoEdad
0,461,2019-0026,PEATON,MASCULINO,0,2019-03-28,7,8,PEATON-PASAJEROS,PEATON,PASAJEROS,Jueves,Niño
1,631,2021-0012,PEATON,MASCULINO,0,2021-01-29,20,8,PEATON-AUTO,PEATON,AUTO,Viernes,Niño
2,30,2016-0041,PASAJERO_ACOMPAÑANTE,MASCULINO,0,2016-03-29,11,7,MOTO-CARGAS,MOTO,CARGAS,Martes,Niño
3,530,2019-0095,CONDUCTOR,MASCULINO,0,2019-11-20,15,1,MOTO-CARGAS,MOTO,CARGAS,Miercoles,Niño
4,529,2019-0094,PASAJERO_ACOMPAÑANTE,FEMENINO,0,2019-11-18,14,15,MOTO-OTRO,MOTO,OTRO,Lunes,Niño
...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,690,2021-0071,PEATON,MASCULINO,88,2021-08-31,16,3,PEATON-MOTO,PEATON,MOTO,Martes,Veterano-anciano
713,594,2020-0055,PEATON,MASCULINO,91,2020-11-19,12,12,PEATON-CARGAS,PEATON,CARGAS,Jueves,Veterano-anciano
714,566,2020-0028,PEATON,MASCULINO,91,2020-05-19,10,15,PEATON-PASAJEROS,PEATON,PASAJEROS,Martes,Veterano-anciano
715,524,2019-0089,PEATON,FEMENINO,92,2019-10-23,15,4,PEATON-CARGAS,PEATON,CARGAS,Miercoles,Veterano-anciano


In [50]:
# Discretizar las edades en intervalos

intervalos = [-1,20,40,60,100]
# Definir etiquetas
etiquetas= [1,2,3,4]

# Discretizar y devolver valores en lugar de intervalos
df['GrupoEdad'] = pd.cut(df['Edad'], bins=intervalos, labels=etiquetas)

df['GrupoEdad'] = pd.to_numeric(df['GrupoEdad'])

df

Unnamed: 0.1,Unnamed: 0,ID,Rol,Sexo,Edad,Fecha,Hora,Comuna,Participantes,Victima,Acusado,Día de semana,GrupoEdad
0,461,2019-0026,PEATON,MASCULINO,0,2019-03-28,7,8,PEATON-PASAJEROS,PEATON,PASAJEROS,Jueves,1
1,631,2021-0012,PEATON,MASCULINO,0,2021-01-29,20,8,PEATON-AUTO,PEATON,AUTO,Viernes,1
2,30,2016-0041,PASAJERO_ACOMPAÑANTE,MASCULINO,0,2016-03-29,11,7,MOTO-CARGAS,MOTO,CARGAS,Martes,1
3,530,2019-0095,CONDUCTOR,MASCULINO,0,2019-11-20,15,1,MOTO-CARGAS,MOTO,CARGAS,Miercoles,1
4,529,2019-0094,PASAJERO_ACOMPAÑANTE,FEMENINO,0,2019-11-18,14,15,MOTO-OTRO,MOTO,OTRO,Lunes,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,690,2021-0071,PEATON,MASCULINO,88,2021-08-31,16,3,PEATON-MOTO,PEATON,MOTO,Martes,4
713,594,2020-0055,PEATON,MASCULINO,91,2020-11-19,12,12,PEATON-CARGAS,PEATON,CARGAS,Jueves,4
714,566,2020-0028,PEATON,MASCULINO,91,2020-05-19,10,15,PEATON-PASAJEROS,PEATON,PASAJEROS,Martes,4
715,524,2019-0089,PEATON,FEMENINO,92,2019-10-23,15,4,PEATON-CARGAS,PEATON,CARGAS,Miercoles,4


Una alternativa al metodo utilizado pd.to_numeric() es  **.astype()**

In [51]:
# Discretizar las edades en intervalos

intervalos = [-1,20,40,60,100]
# Definir etiquetas
etiquetas= [1,2,3,4]

# Discretizar y devolver valores en lugar de intervalos
df['GrupoEdad'] = pd.cut(df['Edad'], bins=intervalos, labels=etiquetas)

df.astype({'GrupoEdad':'Int64'}).dtypes

df

Unnamed: 0.1,Unnamed: 0,ID,Rol,Sexo,Edad,Fecha,Hora,Comuna,Participantes,Victima,Acusado,Día de semana,GrupoEdad
0,461,2019-0026,PEATON,MASCULINO,0,2019-03-28,7,8,PEATON-PASAJEROS,PEATON,PASAJEROS,Jueves,1
1,631,2021-0012,PEATON,MASCULINO,0,2021-01-29,20,8,PEATON-AUTO,PEATON,AUTO,Viernes,1
2,30,2016-0041,PASAJERO_ACOMPAÑANTE,MASCULINO,0,2016-03-29,11,7,MOTO-CARGAS,MOTO,CARGAS,Martes,1
3,530,2019-0095,CONDUCTOR,MASCULINO,0,2019-11-20,15,1,MOTO-CARGAS,MOTO,CARGAS,Miercoles,1
4,529,2019-0094,PASAJERO_ACOMPAÑANTE,FEMENINO,0,2019-11-18,14,15,MOTO-OTRO,MOTO,OTRO,Lunes,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,690,2021-0071,PEATON,MASCULINO,88,2021-08-31,16,3,PEATON-MOTO,PEATON,MOTO,Martes,4
713,594,2020-0055,PEATON,MASCULINO,91,2020-11-19,12,12,PEATON-CARGAS,PEATON,CARGAS,Jueves,4
714,566,2020-0028,PEATON,MASCULINO,91,2020-05-19,10,15,PEATON-PASAJEROS,PEATON,PASAJEROS,Martes,4
715,524,2019-0089,PEATON,FEMENINO,92,2019-10-23,15,4,PEATON-CARGAS,PEATON,CARGAS,Miercoles,4


In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   Unnamed: 0     717 non-null    int64   
 1   ID             717 non-null    object  
 2   Rol            717 non-null    object  
 3   Sexo           717 non-null    object  
 4   Edad           717 non-null    int64   
 5   Fecha          717 non-null    object  
 6   Hora           717 non-null    int64   
 7   Comuna         717 non-null    int64   
 8   Participantes  717 non-null    object  
 9   Victima        708 non-null    object  
 10  Acusado        694 non-null    object  
 11  Día de semana  717 non-null    object  
 12  GrupoEdad      717 non-null    category
dtypes: category(1), int64(4), object(8)
memory usage: 68.2+ KB


### METODO WHERE()

In [54]:
df.head()

Unnamed: 0.1,Unnamed: 0,ID,Rol,Sexo,Edad,Fecha,Hora,Comuna,Participantes,Victima,Acusado,Día de semana,GrupoEdad
0,461,2019-0026,PEATON,MASCULINO,0,2019-03-28,7,8,PEATON-PASAJEROS,PEATON,PASAJEROS,Jueves,1
1,631,2021-0012,PEATON,MASCULINO,0,2021-01-29,20,8,PEATON-AUTO,PEATON,AUTO,Viernes,1
2,30,2016-0041,PASAJERO_ACOMPAÑANTE,MASCULINO,0,2016-03-29,11,7,MOTO-CARGAS,MOTO,CARGAS,Martes,1
3,530,2019-0095,CONDUCTOR,MASCULINO,0,2019-11-20,15,1,MOTO-CARGAS,MOTO,CARGAS,Miercoles,1
4,529,2019-0094,PASAJERO_ACOMPAÑANTE,FEMENINO,0,2019-11-18,14,15,MOTO-OTRO,MOTO,OTRO,Lunes,1


In [55]:
umbral = df['Hora'].mean()
umbral

11.553695955369596

In [56]:
# Utilizando np.where() para clasificar horario

df['Momento'] = np.where(df['Hora'] >= umbral, 'Tarde','Temprano')

df

Unnamed: 0.1,Unnamed: 0,ID,Rol,Sexo,Edad,Fecha,Hora,Comuna,Participantes,Victima,Acusado,Día de semana,GrupoEdad,Momento
0,461,2019-0026,PEATON,MASCULINO,0,2019-03-28,7,8,PEATON-PASAJEROS,PEATON,PASAJEROS,Jueves,1,Temprano
1,631,2021-0012,PEATON,MASCULINO,0,2021-01-29,20,8,PEATON-AUTO,PEATON,AUTO,Viernes,1,Tarde
2,30,2016-0041,PASAJERO_ACOMPAÑANTE,MASCULINO,0,2016-03-29,11,7,MOTO-CARGAS,MOTO,CARGAS,Martes,1,Temprano
3,530,2019-0095,CONDUCTOR,MASCULINO,0,2019-11-20,15,1,MOTO-CARGAS,MOTO,CARGAS,Miercoles,1,Tarde
4,529,2019-0094,PASAJERO_ACOMPAÑANTE,FEMENINO,0,2019-11-18,14,15,MOTO-OTRO,MOTO,OTRO,Lunes,1,Tarde
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,690,2021-0071,PEATON,MASCULINO,88,2021-08-31,16,3,PEATON-MOTO,PEATON,MOTO,Martes,4,Tarde
713,594,2020-0055,PEATON,MASCULINO,91,2020-11-19,12,12,PEATON-CARGAS,PEATON,CARGAS,Jueves,4,Tarde
714,566,2020-0028,PEATON,MASCULINO,91,2020-05-19,10,15,PEATON-PASAJEROS,PEATON,PASAJEROS,Martes,4,Temprano
715,524,2019-0089,PEATON,FEMENINO,92,2019-10-23,15,4,PEATON-CARGAS,PEATON,CARGAS,Miercoles,4,Tarde


### Get dummies

In [57]:
# Utilizando GetDummies, las variables binarias pasan a tener un valor asignado

#Ejemplo con la columna de genero: FEMENINO  /  MASCULINO

pd.get_dummies(df,columns=['Sexo'])

Unnamed: 0.1,Unnamed: 0,ID,Rol,Edad,Fecha,Hora,Comuna,Participantes,Victima,Acusado,Día de semana,GrupoEdad,Momento,Sexo_FEMENINO,Sexo_MASCULINO,Sexo_SD
0,461,2019-0026,PEATON,0,2019-03-28,7,8,PEATON-PASAJEROS,PEATON,PASAJEROS,Jueves,1,Temprano,False,True,False
1,631,2021-0012,PEATON,0,2021-01-29,20,8,PEATON-AUTO,PEATON,AUTO,Viernes,1,Tarde,False,True,False
2,30,2016-0041,PASAJERO_ACOMPAÑANTE,0,2016-03-29,11,7,MOTO-CARGAS,MOTO,CARGAS,Martes,1,Temprano,False,True,False
3,530,2019-0095,CONDUCTOR,0,2019-11-20,15,1,MOTO-CARGAS,MOTO,CARGAS,Miercoles,1,Tarde,False,True,False
4,529,2019-0094,PASAJERO_ACOMPAÑANTE,0,2019-11-18,14,15,MOTO-OTRO,MOTO,OTRO,Lunes,1,Tarde,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,690,2021-0071,PEATON,88,2021-08-31,16,3,PEATON-MOTO,PEATON,MOTO,Martes,4,Tarde,False,True,False
713,594,2020-0055,PEATON,91,2020-11-19,12,12,PEATON-CARGAS,PEATON,CARGAS,Jueves,4,Tarde,False,True,False
714,566,2020-0028,PEATON,91,2020-05-19,10,15,PEATON-PASAJEROS,PEATON,PASAJEROS,Martes,4,Temprano,False,True,False
715,524,2019-0089,PEATON,92,2019-10-23,15,4,PEATON-CARGAS,PEATON,CARGAS,Miercoles,4,Tarde,True,False,False


In [64]:
# Utilizando GetDummies, las variables binarias pasan a tener un valor asignado

#Ejemplo con la columna de genero: FEMENINO  /  MASCULINO

# Sin generar la primer columna

df = pd.get_dummies(df,columns=['Sexo'], drop_first=True)

df.rename(columns={'Sexo_MASCULINO': 'Sexo_Binario'}, inplace=True)

df['Sexo_Binario'] = df['Sexo_Binario'].astype(int)

In [69]:
df

Unnamed: 0.1,Unnamed: 0,ID,Rol,Edad,Fecha,Hora,Comuna,Participantes,Victima,Acusado,Día de semana,GrupoEdad,Momento,Sexo_Binario
0,461,2019-0026,PEATON,0,2019-03-28,7,8,PEATON-PASAJEROS,PEATON,PASAJEROS,Jueves,1,Temprano,1
1,631,2021-0012,PEATON,0,2021-01-29,20,8,PEATON-AUTO,PEATON,AUTO,Viernes,1,Tarde,1
2,30,2016-0041,PASAJERO_ACOMPAÑANTE,0,2016-03-29,11,7,MOTO-CARGAS,MOTO,CARGAS,Martes,1,Temprano,1
3,530,2019-0095,CONDUCTOR,0,2019-11-20,15,1,MOTO-CARGAS,MOTO,CARGAS,Miercoles,1,Tarde,1
4,529,2019-0094,PASAJERO_ACOMPAÑANTE,0,2019-11-18,14,15,MOTO-OTRO,MOTO,OTRO,Lunes,1,Tarde,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,690,2021-0071,PEATON,88,2021-08-31,16,3,PEATON-MOTO,PEATON,MOTO,Martes,4,Tarde,1
713,594,2020-0055,PEATON,91,2020-11-19,12,12,PEATON-CARGAS,PEATON,CARGAS,Jueves,4,Tarde,1
714,566,2020-0028,PEATON,91,2020-05-19,10,15,PEATON-PASAJEROS,PEATON,PASAJEROS,Martes,4,Temprano,1
715,524,2019-0089,PEATON,92,2019-10-23,15,4,PEATON-CARGAS,PEATON,CARGAS,Miercoles,4,Tarde,0


In [68]:
df = df.drop(columns='Sexo_SD')

### Manipulacion de STRINGS

In [70]:
df

Unnamed: 0.1,Unnamed: 0,ID,Rol,Edad,Fecha,Hora,Comuna,Participantes,Victima,Acusado,Día de semana,GrupoEdad,Momento,Sexo_Binario
0,461,2019-0026,PEATON,0,2019-03-28,7,8,PEATON-PASAJEROS,PEATON,PASAJEROS,Jueves,1,Temprano,1
1,631,2021-0012,PEATON,0,2021-01-29,20,8,PEATON-AUTO,PEATON,AUTO,Viernes,1,Tarde,1
2,30,2016-0041,PASAJERO_ACOMPAÑANTE,0,2016-03-29,11,7,MOTO-CARGAS,MOTO,CARGAS,Martes,1,Temprano,1
3,530,2019-0095,CONDUCTOR,0,2019-11-20,15,1,MOTO-CARGAS,MOTO,CARGAS,Miercoles,1,Tarde,1
4,529,2019-0094,PASAJERO_ACOMPAÑANTE,0,2019-11-18,14,15,MOTO-OTRO,MOTO,OTRO,Lunes,1,Tarde,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,690,2021-0071,PEATON,88,2021-08-31,16,3,PEATON-MOTO,PEATON,MOTO,Martes,4,Tarde,1
713,594,2020-0055,PEATON,91,2020-11-19,12,12,PEATON-CARGAS,PEATON,CARGAS,Jueves,4,Tarde,1
714,566,2020-0028,PEATON,91,2020-05-19,10,15,PEATON-PASAJEROS,PEATON,PASAJEROS,Martes,4,Temprano,1
715,524,2019-0089,PEATON,92,2019-10-23,15,4,PEATON-CARGAS,PEATON,CARGAS,Miercoles,4,Tarde,0


In [71]:
df['Rol'].str.lower()

0                    peaton
1                    peaton
2      pasajero_acompañante
3                 conductor
4      pasajero_acompañante
               ...         
712                  peaton
713                  peaton
714                  peaton
715                  peaton
716                  peaton
Name: Rol, Length: 717, dtype: object

str.
- upper()
- lower()
- isupper()
- islower()
- isnumeric()
- replace()
- split()
- contains()
- find()

### Manipulación de DATE y TIME

In [76]:
df_fechas = df[['ID','Fecha','Día de semana']]

In [77]:
df_fechas

Unnamed: 0,ID,Fecha,Día de semana
0,2019-0026,2019-03-28,Jueves
1,2021-0012,2021-01-29,Viernes
2,2016-0041,2016-03-29,Martes
3,2019-0095,2019-11-20,Miercoles
4,2019-0094,2019-11-18,Lunes
...,...,...,...
712,2021-0071,2021-08-31,Martes
713,2020-0055,2020-11-19,Jueves
714,2020-0028,2020-05-19,Martes
715,2019-0089,2019-10-23,Miercoles


In [79]:
df_fechas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   ID             717 non-null    object
 1   Fecha          717 non-null    object
 2   Día de semana  717 non-null    object
dtypes: object(3)
memory usage: 16.9+ KB


In [80]:
df_fechas['Fecha'] = pd.to_datetime(df['Fecha'])
df_fechas

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_fechas['Fecha'] = pd.to_datetime(df['Fecha'])


Unnamed: 0,ID,Fecha,Día de semana
0,2019-0026,2019-03-28,Jueves
1,2021-0012,2021-01-29,Viernes
2,2016-0041,2016-03-29,Martes
3,2019-0095,2019-11-20,Miercoles
4,2019-0094,2019-11-18,Lunes
...,...,...,...
712,2021-0071,2021-08-31,Martes
713,2020-0055,2020-11-19,Jueves
714,2020-0028,2020-05-19,Martes
715,2019-0089,2019-10-23,Miercoles


In [82]:
df_fechas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   ID             717 non-null    object        
 1   Fecha          717 non-null    datetime64[ns]
 2   Día de semana  717 non-null    object        
dtypes: datetime64[ns](1), object(2)
memory usage: 16.9+ KB


In [87]:
# Para acceder a los métodos de fecha usando .dt



df_fechas[df_fechas['Fecha'].dt.year == 2020]

Unnamed: 0,ID,Fecha,Día de semana
31,2020-0040,2020-09-12,Sabado
34,2020-0034,2020-08-02,Domingo
37,2020-0025,2020-05-12,Martes
38,2020-0017,2020-03-05,Jueves
42,2020-0014,2020-02-27,Jueves
...,...,...,...
700,2020-0057,2020-11-23,Lunes
707,2020-0001,2020-01-04,Sabado
711,2020-0021,2020-03-14,Sabado
713,2020-0055,2020-11-19,Jueves


In [90]:
df_fechas['Fecha'].dt.day

0      28
1      29
2      29
3      20
4      18
       ..
712    31
713    19
714    19
715    23
716    22
Name: Fecha, Length: 717, dtype: int32

In [91]:
df_fechas['Dia'] = df_fechas['Fecha'].dt.day
df_fechas['Mes'] = df_fechas['Fecha'].dt.month
df_fechas['Año'] = df_fechas['Fecha'].dt.year



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_fechas['Dia'] = df_fechas['Fecha'].dt.day
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_fechas['Mes'] = df_fechas['Fecha'].dt.month
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_fechas['Año'] = df_fechas['Fecha'].dt.year


In [92]:
df_fechas

Unnamed: 0,ID,Fecha,Día de semana,Dia,Mes,Año
0,2019-0026,2019-03-28,Jueves,28,3,2019
1,2021-0012,2021-01-29,Viernes,29,1,2021
2,2016-0041,2016-03-29,Martes,29,3,2016
3,2019-0095,2019-11-20,Miercoles,20,11,2019
4,2019-0094,2019-11-18,Lunes,18,11,2019
...,...,...,...,...,...,...
712,2021-0071,2021-08-31,Martes,31,8,2021
713,2020-0055,2020-11-19,Jueves,19,11,2020
714,2020-0028,2020-05-19,Martes,19,5,2020
715,2019-0089,2019-10-23,Miercoles,23,10,2019


In [93]:
df_fechas.loc[:, 'Dia'] = df_fechas['Fecha'].dt.day
df_fechas.loc[:, 'Mes'] = df_fechas['Fecha'].dt.month
df_fechas.loc[:, 'Año'] = df_fechas['Fecha'].dt.year

In [96]:
df_fechas = df_fechas.copy

In [97]:
df_fechas

<bound method NDFrame.copy of             ID      Fecha Día de semana  Dia  Mes   Año
0    2019-0026 2019-03-28        Jueves   28    3  2019
1    2021-0012 2021-01-29       Viernes   29    1  2021
2    2016-0041 2016-03-29        Martes   29    3  2016
3    2019-0095 2019-11-20     Miercoles   20   11  2019
4    2019-0094 2019-11-18         Lunes   18   11  2019
..         ...        ...           ...  ...  ...   ...
712  2021-0071 2021-08-31        Martes   31    8  2021
713  2020-0055 2020-11-19        Jueves   19   11  2020
714  2020-0028 2020-05-19        Martes   19    5  2020
715  2019-0089 2019-10-23     Miercoles   23   10  2019
716  2017-0080 2017-06-22        Jueves   22    6  2017

[717 rows x 6 columns]>

In [104]:
# Convertir a formato de fecha y hora de Pandas. Especificamos el formato de entrada

df_fechas = pd.DataFrame({
    'Fecha': ['02-05-2021','03-04-2032','23-08-1995']
})
df_fechas['Fecha'] = pd.to_datetime(df_fechas['Fecha'], format= '%d-%m-%Y')
# df_fechas['Fecha'] = pd.to_datetime(df['Fecha'], format='%Y-%m-%d')
df_fechas


Unnamed: 0,Fecha
0,2021-05-02
1,2032-04-03
2,1995-08-23


In [102]:
df_fechas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   Fecha   3 non-null      datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 156.0 bytes


In [109]:
df_2021 = df_fechas[df_fechas['Fecha'].dt.year == 2021]   # no tengo que comparar con un STR

In [110]:
df_2021

Unnamed: 0,Fecha
0,2021-05-02
