In [3]:
# import pandas library
import pandas as pd
import datetime

In [4]:
# add first data file: inscripcion_conferencia.csv
inscripcion_conferencia = pd.read_csv("../BasesFinales/inscripcion_conferencia.csv", sep = ';', encoding='latin-1')

In [5]:
# (rows, columns)
inscripcion_conferencia.shape

(2199, 6)

In [6]:
inscripcion_conferencia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2199 entries, 0 to 2198
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   IDEstudiante     2199 non-null   int64 
 1   Nombre           2199 non-null   object
 2   FechaNacimiento  2199 non-null   object
 3   estudiante       2199 non-null   object
 4   Genero_completo  2199 non-null   object
 5   Ingresos         2199 non-null   int64 
dtypes: int64(2), object(4)
memory usage: 103.2+ KB


In [7]:
inscripcion_conferencia.head()

Unnamed: 0,IDEstudiante,Nombre,FechaNacimiento,estudiante,Genero_completo,Ingresos
0,1,Marcos Morales Rubiano,25/08/2009,S,H,534847
1,2,Maria Rubiano Delgado,29/05/2011,N,M,1113050
2,3,Paula Contreras Delgado,8/06/1998,N,M,1249186
3,4,Carlos Medina Rubiano,11/07/1997,S,H,915811
4,5,Pablo Salazar Delgado,18/10/2005,S,H,1175867


In [8]:
# format date type
inscripcion_conferencia['FechaNacimiento'] = pd.to_datetime(inscripcion_conferencia['FechaNacimiento'], dayfirst = True)
inscripcion_conferencia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2199 entries, 0 to 2198
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   IDEstudiante     2199 non-null   int64         
 1   Nombre           2199 non-null   object        
 2   FechaNacimiento  2199 non-null   datetime64[ns]
 3   estudiante       2199 non-null   object        
 4   Genero_completo  2199 non-null   object        
 5   Ingresos         2199 non-null   int64         
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 103.2+ KB


In [9]:
# verify number of unique values
inscripcion_conferencia['Nombre'].nunique(dropna=False)

2199

In [10]:
# verify unique values from column estudiante
inscripcion_conferencia['estudiante'].unique()

array(['S', 'N'], dtype=object)

The dictionary doesn't mention this column. It is asume that 'S' means 'Sí'(Yes) and 'N' to 'No', with respect to the state of the students.

In [11]:
# verify unique values from column Genero_completo
inscripcion_conferencia['Genero_completo'].unique()

array(['H', 'M'], dtype=object)

In [12]:
# verify unique values from column Ingresos
inscripcion_conferencia['Ingresos'].nunique(dropna=False)

2196

In [13]:
# There are three values repeated. Check which ones, if there are numbers or what?
inscripcion_conferencia['Ingresos'].value_counts(dropna=False, ascending=False).head()

Ingresos
1275706    2
994619     2
1340758    2
534847     1
910009     1
Name: count, dtype: int64

The file `inscripcion_conferencia.csv` doesn't present null values. Next, it will be check if there are any weird values.

In [16]:
# calculate age of the students to current year 2024.
current_year = 2024
inscripcion_conferencia['age'] = current_year - inscripcion_conferencia['FechaNacimiento'].dt.year
inscripcion_conferencia.head()

Unnamed: 0,IDEstudiante,Nombre,FechaNacimiento,estudiante,Genero_completo,Ingresos,age
0,1,Marcos Morales Rubiano,2009-08-25,S,H,534847,15
1,2,Maria Rubiano Delgado,2011-05-29,N,M,1113050,13
2,3,Paula Contreras Delgado,1998-06-08,N,M,1249186,26
3,4,Carlos Medina Rubiano,1997-07-11,S,H,915811,27
4,5,Pablo Salazar Delgado,2005-10-18,S,H,1175867,19


Statistics of numeric data

In [18]:
# eliminar posiciones decimales
pd.set_option('display.precision', 2)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

inscripcion_conferencia.describe()

Unnamed: 0,IDEstudiante,FechaNacimiento,Ingresos,age
count,2199.0,2199,2199.0,2199.0
mean,1100.0,2003-10-31 03:03:21.364256512,1003138.4,20.67
min,1.0,1993-10-12 00:00:00,502221.0,11.0
25%,550.5,1998-12-02 00:00:00,764890.0,16.0
50%,1100.0,2003-11-25 00:00:00,1039857.0,21.0
75%,1649.5,2008-09-24 00:00:00,1201420.5,26.0
max,2199.0,2013-09-27 00:00:00,1499407.0,31.0
std,634.94,,277300.06,5.71


No atypical value in the numeric columns seams to be.

In [21]:
# export transform data
inscripcion_conferencia.to_csv('..\BasesFinales\inscripcion_conferencia_transform.csv')

## Second file: `estudiantes.csv`

In [23]:
# add file estudiantes.csv
estudiantes = pd.read_csv('../BasesFinales/estudiantes.csv', sep=';', encoding='latin-1')
estudiantes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 976 entries, 0 to 975
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   IDEstudiante     976 non-null    int64 
 1   Nombre           976 non-null    object
 2   FechaNacimiento  976 non-null    object
dtypes: int64(1), object(2)
memory usage: 23.0+ KB


In [24]:
estudiantes.head()

Unnamed: 0,IDEstudiante,Nombre,FechaNacimiento
0,1,Marcos Morales Rubiano,25/08/2009
1,2,Maria Rubiano Delgado,29/05/2011
2,5,Pablo Salazar Delgado,18/10/2005
3,6,Marcos Jiménez Marín,16/12/2000
4,7,Luis Reyes Ríos,28/05/2011


In [25]:
# check unique names and count
estudiantes['Nombre'].nunique(dropna=False)

976

In [26]:
# convert date to datetime type
estudiantes['FechaNacimiento'] = pd.to_datetime(estudiantes['FechaNacimiento'], dayfirst=True)
estudiantes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 976 entries, 0 to 975
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   IDEstudiante     976 non-null    int64         
 1   Nombre           976 non-null    object        
 2   FechaNacimiento  976 non-null    datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 23.0+ KB


In [27]:
# add age column
estudiantes['age'] = current_year - estudiantes['FechaNacimiento'].dt.year
estudiantes.head()

Unnamed: 0,IDEstudiante,Nombre,FechaNacimiento,age
0,1,Marcos Morales Rubiano,2009-08-25,15
1,2,Maria Rubiano Delgado,2011-05-29,13
2,5,Pablo Salazar Delgado,2005-10-18,19
3,6,Marcos Jiménez Marín,2000-12-16,24
4,7,Luis Reyes Ríos,2011-05-28,13


In [28]:
estudiantes.describe()

Unnamed: 0,IDEstudiante,FechaNacimiento,age
count,976.0,976,976.0
mean,979.85,2004-03-06 16:46:13.770491776,20.32
min,1.0,1993-10-12 00:00:00,11.0
25%,504.75,1999-04-06 00:00:00,15.0
50%,949.0,2004-06-22 12:00:00,20.0
75%,1471.25,2009-04-04 06:00:00,25.0
max,1999.0,2013-09-22 00:00:00,31.0
std,575.27,,5.78


The data doesn't contain null values nor atypical. The column age was added.

In [29]:
# export transformed file
estudiantes.to_csv('../BasesFinales/estudiantes_transform.csv')

## Third file: `donantes_inscritos.csv`

In [None]:
# add