In [21]:
# imports
import pandas as pd
import duckdb as dk

In [22]:
df = pd.read_csv("data/ModalidadVirtual.csv")

In [23]:
# filtramos por el rango de la edad
df["edad"] > 23 # mayor que 23

0      False
1       True
2      False
3      False
4       True
       ...  
217    False
218    False
219     True
220    False
221    False
Name: edad, Length: 222, dtype: bool

In [24]:
# Devuelve la informacion(numero de row, numero de columns, indices, tipo de columns, memoria usada)
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 222 entries, 0 to 221
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  222 non-null    int64 
 1   time        222 non-null    object
 2   carrera     222 non-null    object
 3   acepta      222 non-null    object
 4   positivo    222 non-null    object
 5   negativo    222 non-null    object
 6   edad        222 non-null    int64 
 7   sexo        222 non-null    object
 8   trabajo     222 non-null    object
dtypes: int64(2), object(7)
memory usage: 15.7+ KB


In [25]:

# devuelve una tupla con el numero de filas y columnas del df
print(df.shape)

(222, 9)


In [26]:

# devuelve el nunero de elementos del df
print(df.size)

1998


In [27]:

# devuelve una lista con los nombres de las columnas del df
print(df.columns)


Index(['Unnamed: 0', 'time', 'carrera', 'acepta', 'positivo', 'negativo',
       'edad', 'sexo', 'trabajo'],
      dtype='object')


In [28]:

# devuelve una lista con los nombres de las filas del df
df.index


RangeIndex(start=0, stop=222, step=1)

In [29]:

# devuelve una serie con los tipos de datos de las columnas del df
df.dtypes


Unnamed: 0     int64
time          object
carrera       object
acepta        object
positivo      object
negativo      object
edad           int64
sexo          object
trabajo       object
dtype: object

In [30]:

# devuelve las n primeras filas del df
df.head(2)


Unnamed: 0.1,Unnamed: 0,time,carrera,acepta,positivo,negativo,edad,sexo,trabajo
0,0,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,Contacto Personal Docente-Estudiantil.,20,Hombre,Eventual
1,1,2020-11-08,Psicología,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,26,Hombre,Eventual


In [31]:

# devuelve las n ultimas filas del df
df.tail(2)

Unnamed: 0.1,Unnamed: 0,time,carrera,acepta,positivo,negativo,edad,sexo,trabajo
220,233,2020-12-11,Ingeniería Agronómica,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,20,Mujer,Sí
221,234,2020-12-12,Comercio Internacional,Si,Horario flexible.,"Falta de recursos de calidad(plataformas, doce...",23,Hombre,Sí


In [32]:
# localizar elementos del df

i = 1 # i representa las filas 
j = 2 # j representa las columnas

df.iloc[i,j]

'Psicología'

In [33]:
# localizar y ver en un rango de valores de una fila

i = 2 # i representa las filas 
r = 5 # representa el rango hasta donde llegara

df.iloc[i,:r]

Unnamed: 0                         2
time                      2020-11-08
carrera       Ingeniería de Sistemas
acepta                            Si
positivo           Horario flexible.
Name: 2, dtype: object

In [34]:
print(df.loc[2, "carrera"])
print(df.loc[:2, ("carrera", "positivo")])

Ingeniería de Sistemas
                  carrera                       positivo
0  Ingeniería de Sistemas              Horario flexible.
1              Psicología  Acceso desde cualquier lugar.
2  Ingeniería de Sistemas              Horario flexible.


La diferencia entre .iloc y .loc radica en que iloc se usa para acceder a informacion mediante las coordenadas de la matriz como es el caso de (8,9)
donde ocho es la posicion en la  fila y nueva es la posicion en la columna. En cambio loc es para acceder a a la informacion mediante las etiquetas de esta 
como ("nombre", "edad") o tambien podemos usar una combinacion de index y etiqueta como (8, "nombre)

In [35]:
# añadir una nueva columna al df

df["turno"] = pd.Series(["tarde" for turno in range(len(df))])
df.head(5)

Unnamed: 0.1,Unnamed: 0,time,carrera,acepta,positivo,negativo,edad,sexo,trabajo,turno
0,0,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,Contacto Personal Docente-Estudiantil.,20,Hombre,Eventual,tarde
1,1,2020-11-08,Psicología,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,26,Hombre,Eventual,tarde
2,2,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,"Falta de recursos de calidad(plataformas, doce...",20,Mujer,Sí,tarde
3,3,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,Conexión a internet.,18,Mujer,No,tarde
4,4,2020-11-08,Ingeniería de Sistemas,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,39,Hombre,Sí,tarde


In [36]:
# eliminar columnas del df

turno = df.pop("turno")
df.head(5)

Unnamed: 0.1,Unnamed: 0,time,carrera,acepta,positivo,negativo,edad,sexo,trabajo
0,0,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,Contacto Personal Docente-Estudiantil.,20,Hombre,Eventual
1,1,2020-11-08,Psicología,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,26,Hombre,Eventual
2,2,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,"Falta de recursos de calidad(plataformas, doce...",20,Mujer,Sí
3,3,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,Conexión a internet.,18,Mujer,No
4,4,2020-11-08,Ingeniería de Sistemas,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,39,Hombre,Sí


In [39]:

# agregar una fila al dataframe
df.loc[len(df)] = [len(df),"2020-12-12","mecatronica","Si","Horario flexible.","Falta de recursos de calidad(plataformas, docentes).",23,"Hombre","Sí"]
df.tail(1)

last_index = len(df) - 1

# eliminar una fila al dataframe
df.drop([last_index], axis=0, inplace=True) # ingresamos el index de la fila que queremos eliminar
# axis: es para declarar que se va a eliminar una fila con el 0 o columna con el 1
# inplace: se debe implementar sobre el mismo data frame
df.tail(5) # como se puede ver, lo ultimo que agregamos ya no aparece

Unnamed: 0.1,Unnamed: 0,time,carrera,acepta,positivo,negativo,edad,sexo,trabajo
217,230,2020-12-10,Gestión Turística y Hotelera,Si,Horario flexible.,Conexión a internet.,19,Mujer,Sí
218,231,2020-12-11,Ingeniería de Sistemas,No,Acceso desde cualquier lugar.,"Falta de recursos de calidad(plataformas, doce...",23,Mujer,No
219,232,2020-12-11,Gestión Turística y Hotelera,No,Horario flexible.,"Falta de recursos de calidad(plataformas, doce...",25,Hombre,Sí
220,233,2020-12-11,Ingeniería Agronómica,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,20,Mujer,Sí
221,234,2020-12-12,Comercio Internacional,Si,Horario flexible.,"Falta de recursos de calidad(plataformas, doce...",23,Hombre,Sí


In [45]:
# filtrado de filas en el dataframe
df[(df["sexo"] == "Mujer") & (df["edad"] >= 20)]

Unnamed: 0.1,Unnamed: 0,time,carrera,acepta,positivo,negativo,edad,sexo,trabajo
2,2,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,"Falta de recursos de calidad(plataformas, doce...",20,Mujer,Sí
5,5,2020-11-08,Ciencias de la Educación,Si,Acceso desde cualquier lugar.,Conexión a internet.,25,Mujer,Sí
13,14,2020-11-08,Contaduría Pública,Si,Horario flexible.,Conexión a internet.,22,Mujer,Sí
17,19,2020-11-08,Derecho,Si,Acceso desde cualquier lugar.,Conexión a internet.,28,Mujer,Eventual
18,20,2020-11-09,Derecho,Si,Acceso desde cualquier lugar.,Conexión a internet.,32,Mujer,Sí
...,...,...,...,...,...,...,...,...,...
214,227,2020-12-09,Comercio Internacional,Si,Acceso desde cualquier lugar.,"Falta de recursos de calidad(plataformas, doce...",20,Mujer,Sí
215,228,2020-12-09,Psicología,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,21,Mujer,No
216,229,2020-12-10,Trabajo Social,Si,Horario flexible.,Contacto Personal Docente-Estudiantil.,30,Mujer,Sí
218,231,2020-12-11,Ingeniería de Sistemas,No,Acceso desde cualquier lugar.,"Falta de recursos de calidad(plataformas, doce...",23,Mujer,No


In [48]:
# ordenar dataframe

# ordena el df por medio de una columna señalada, de manera ascendente
df.sort_values("carrera") 

# con la sentencia ascending en positivo ordena de manera ascendente, con false de manera decendente
df.sort_values("edad", ascending=False) 

Unnamed: 0.1,Unnamed: 0,time,carrera,acepta,positivo,negativo,edad,sexo,trabajo
114,125,2020-11-19,Lingüística e Idiomas,Si,Horario flexible.,Conexión a internet.,54,Mujer,Sí
64,73,2020-11-10,Lingüística e Idiomas,Si,Horario flexible.,"Falta de recursos de calidad(plataformas, doce...",50,Hombre,Sí
85,95,2020-11-11,Derecho,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,49,Hombre,Sí
141,153,2020-11-22,Comercio Internacional,Si,Horario flexible.,Conexión a internet.,47,Mujer,Sí
25,27,2020-11-09,Ciencias de la Educación,Si,Horario flexible.,Contacto Personal Docente-Estudiantil.,46,Hombre,Sí
...,...,...,...,...,...,...,...,...,...
3,3,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,Conexión a internet.,18,Mujer,No
74,84,2020-11-10,Otra,Si,Horario flexible.,Contacto Personal Docente-Estudiantil.,17,Mujer,Sí
75,85,2020-11-10,Trabajo Social,Si,Horario flexible.,Conexión a internet.,17,Mujer,Sí
86,96,2020-11-13,Ciencias de la Educación,Si,Acceso desde cualquier lugar.,Conexión a internet.,17,Mujer,No


In [49]:
# eliminar las filas que contengan un Nan en uno de sus campos
df.dropna()

Unnamed: 0.1,Unnamed: 0,time,carrera,acepta,positivo,negativo,edad,sexo,trabajo
0,0,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,Contacto Personal Docente-Estudiantil.,20,Hombre,Eventual
1,1,2020-11-08,Psicología,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,26,Hombre,Eventual
2,2,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,"Falta de recursos de calidad(plataformas, doce...",20,Mujer,Sí
3,3,2020-11-08,Ingeniería de Sistemas,Si,Horario flexible.,Conexión a internet.,18,Mujer,No
4,4,2020-11-08,Ingeniería de Sistemas,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,39,Hombre,Sí
...,...,...,...,...,...,...,...,...,...
217,230,2020-12-10,Gestión Turística y Hotelera,Si,Horario flexible.,Conexión a internet.,19,Mujer,Sí
218,231,2020-12-11,Ingeniería de Sistemas,No,Acceso desde cualquier lugar.,"Falta de recursos de calidad(plataformas, doce...",23,Mujer,No
219,232,2020-12-11,Gestión Turística y Hotelera,No,Horario flexible.,"Falta de recursos de calidad(plataformas, doce...",25,Hombre,Sí
220,233,2020-12-11,Ingeniería Agronómica,Si,Acceso desde cualquier lugar.,Contacto Personal Docente-Estudiantil.,20,Mujer,Sí
