<font size="10" color="purple"><left><b><i><u>Exploratory Data Analysis #1</u></i></b></left></font>

<font size="4"><li><left><i>Instanciamos clase EDA con los métodos necesarios</i></left></font>


In [55]:
import pandas as pd

class EDA:
    def read_csv(self, file_path):
        """
        Lee un archivo CSV y devuelve un dataframe.

        Args:
            file_path (str): Ruta al archivo CSV a leer.

        Returns:
            pd.DataFrame: El dataframe con los datos del archivo CSV.
        """
        dataframe = pd.read_csv(file_path,encoding='UTF-8')
        return dataframe

    def get_columnas(self, dataframe):
        """
        Obtiene una lista de las columnas de un dataframe.

        Args:
            dataframe (pd.DataFrame): El dataframe del cual se desean obtener las columnas.

        Returns:
            list: Lista de las columnas del dataframe.
        """
        columnas = dataframe.columns.tolist()
        return columnas

    def set_columns_dtype_category(self, dataframe, columnas):
        """
        Asigna el tipo de dato "category" a una lista de columnas en un dataframe.

        Args:
            dataframe (pd.DataFrame): El dataframe al que se desea asignar los tipos de dato.
            columnas (list): La lista de columnas a las que se desea asignar el tipo de dato "category".
        """
        dataframe[columnas] = dataframe[columnas].astype('category')

    def set_columns_dtype_int(self, dataframe, columnas):
        """
        Asigna el tipo de dato "int" a una lista de columnas en un dataframe.

        Args:
            dataframe (pd.DataFrame): El dataframe al que se desea asignar los tipos de dato.
            columnas (list): La lista de columnas a las que se desea asignar el tipo de dato "int".
        """
        dataframe[columnas] = dataframe[columnas].astype(int)

    def set_columns_dtype_float(self, dataframe, columnas):
        """
        Asigna el tipo de dato "float" a una lista de columnas en un dataframe.

        Args:
            dataframe (pd.DataFrame): El dataframe al que se desea asignar los tipos de dato.
            columnas (list): La lista de columnas a las que se desea asignar el tipo de dato "float".
        """
        dataframe[columnas] = dataframe[columnas].astype(float)

    def set_columns_dtype_datetime(self, dataframe, columnas, formato='%Y-%m-%d'):
        """
        Asigna el tipo de dato "datetime" a una lista de columnas en un dataframe, con el formato especificado.

        Args:
            dataframe (pd.DataFrame): El dataframe al que se desea asignar los tipos de dato.
            columnas (list): La lista de columnas a las que se desea asignar el tipo de dato "datetime".
            formato (str): El formato de fecha a utilizar (por defecto: "%Y-%m-%d").
        """
        dataframe[columnas] = pd.to_datetime(dataframe[columnas], format=formato)

    def rename_columns(self, dataframe, column_mapping):
        """
        Modifica los nombres de las columnas de un dataframe.

        Args:
            dataframe (pd.DataFrame): El dataframe al que se le van a modificar los nombres de las columnas.
            column_mapping (dict): Un diccionario que contiene el mapeo de los nombres actuales de las columnas a los nuevos nombres.

        Returns:
            pd.DataFrame: El dataframe con los nombres de columnas modificados.
        """
        dataframe.rename(columns=column_mapping, inplace=True)
        return dataframe

    def get_duplicate_rows(self, dataframe, column):
        """
        Devuelve las filas del dataframe que tienen valores duplicados en una columna específica.

        Args:
            dataframe (pd.DataFrame): El dataframe del cual se van a obtener las filas duplicadas.
            column (str): El nombre de la columna a verificar para duplicados.

        Returns:
            pd.DataFrame: El dataframe con las filas que tienen valores duplicados en la columna especificada.
        """
        duplicate_rows = dataframe[dataframe.duplicated(subset=column, keep=False)]
        return duplicate_rows

    def strip_column_values(self, dataframe, column_names):
        """
        Elimina los espacios en blanco al inicio y al final de los valores de las filas de las columnas especificadas.

        Args:
            dataframe (pd.DataFrame): El dataframe en el cual se van a limpiar los valores de las columnas.
            column_names (list): Una lista de nombres de columnas a las cuales se les va a aplicar el método .strip().

        Returns:
            pd.DataFrame: El dataframe con los valores de las filas de las columnas especificadas limpios de espacios en blanco.
        """
        for column in column_names:
            dataframe[column] = dataframe[column].str.strip()
        return dataframe

    def sort_dataframe(self, dataframe, column_name):
        """
        Ordena un dataframe de menor a mayor según los valores de una columna especificada.

        Args:
            dataframe (pd.DataFrame): El dataframe a ordenar.
            column_name (str): El nombre de la columna según la cual se va a ordenar el dataframe.

        Returns:
            pd.DataFrame: El dataframe ordenado de menor a mayor según los valores de la columna especificada.
        """
        sorted_dataframe = dataframe.sort_values(by=column_name, ascending=True)
        return sorted_dataframe

    def sort_and_replace(self, dataframe, column1, column2):
        """
        Ordena un dataframe de menor a mayor según los valores de una columna y reemplaza los valores de otra columna por enteros.

        Args:
            dataframe (pd.DataFrame): El dataframe a procesar.
            column1 (str): El nombre de la primera columna según la cual se va a ordenar el dataframe.
            column2 (str): El nombre de la segunda columna cuyos valores se reemplazarán por enteros.

        Returns:
            pd.DataFrame: El dataframe ordenado y con los valores de la segunda columna reemplazados por enteros.
        """
        # Ordenar dataframe por la columna 1 de menor a mayor
        dataframe = dataframe.sort_values(by=column1)

        # Reemplazar los valores de la columna 2 por enteros
        dataframe[column2] = range(len(dataframe))

        return dataframe



# Instancia de la clase EDA
eda = EDA()

<font size="4"><li><left><i>Exportamos Coursera_courses.csv a dataframe</i></left></font>

In [56]:
# Path de archivos CSV
path = '/Users/negro/Library/CloudStorage/OneDrive-Personal/Documentos/00 Fran/01 - Personales/02-Learn/0. Data Science/0. Data Science/2_projects/e_MOOCs/2_Repo/MOOCs_BA/rawDataSets/Coursera_courses.csv'

# Leer y almacenar los archivos CSV en dataframes
Coursera_courses = eda.read_csv(path)


<font size="4"><li><left><i>Obtenemos información del dataframe</i></left></font>

In [57]:
Coursera_courses.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 623 entries, 0 to 622
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   name         623 non-null    object
 1   institution  623 non-null    object
 2   course_url   623 non-null    object
 3   course_id    623 non-null    object
dtypes: object(4)
memory usage: 19.6+ KB


<font size="4"><li><left><i>No se identifican valores null en este dataset.</i></left></font><br>

<font size="4"><li><left><i>Clasificamos variables y renombramos columnas:</i></left></font>

In [58]:
# Obtener lista de columnas
columnas = eda.get_columnas(Coursera_courses)
print(columnas)

['name', 'institution', 'course_url', 'course_id']


<font size="4"><li><left><i>Asignamos tipos de datos:</i></left></font>

In [59]:
# Asignar tipo de dato 'category'
columnas_cat = ['name', 'institution']
eda.set_columns_dtype_category(Coursera_courses,columnas_cat)

# Asignar tipo de dato 'int' a las columnas
# columnas_int = []
# eda.set_columns_dtype_int(dataframe, columnas_int)

# Asignar tipo de dato 'float' a las columnas
# columnas_float = []
# eda.set_columns_dtype_float(dataframe, columnas_float)

# Asignar tipo de dato 'datetime' a la columna con formato 'YYYY-MM-DD'
# columna_fecha = []
# eda.set_columns_dtype_datetime(dataframe, columna_fecha, formato='%Y-%m-%d')



<font size="4"><li><left><i>Renombramos columnas:</i></left></font>

In [60]:
# Definir un diccionario de mapeo de nombres de columnas
column_mapping = {'name': 'nombre_curso', 'institution': 'institucion','course_url': 'url_curso','course_id':'id_curso'}

# Llamar al método rename_columns
dataframe_modificado = eda.rename_columns(Coursera_courses, column_mapping)


In [61]:
Coursera_courses.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 623 entries, 0 to 622
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   nombre_curso  623 non-null    category
 1   institucion   623 non-null    category
 2   url_curso     623 non-null    object  
 3   id_curso      623 non-null    object  
dtypes: category(2), object(2)
memory usage: 38.4+ KB


<font size="4" color="white"><li><left><i>Eliminamos espacios antes/despues:</i></left></font>

In [62]:
# Eliminar espacios alrededor de str
# Definir una lista de nombres de columnas a limpiar
columnas_a_limpiar = ['nombre_curso', 'institucion', 'url_curso', 'id_curso']

# Llamar al método strip_column_values
Coursera_courses = eda.strip_column_values(Coursera_courses, columnas_a_limpiar)

<font size="4" color="white"><li><left><i>Ordenamos por columna:</i></left></font>

In [63]:
# Llamar al método sort_dataframe
courcera_courses = eda.sort_dataframe(Coursera_courses, 'nombre_curso')
courcera_courses.head()

Unnamed: 0,nombre_curso,institucion,url_curso,id_curso
261,A Crash Course in Causality: Inferring Causal...,University of Pennsylvania,https://www.coursera.org/learn/crash-course-in...,crash-course-in-causality
622,A Crash Course in Data Science,Johns Hopkins University,https://www.coursera.org/learn/data-science-co...,data-science-course
396,A Law Student's Toolkit,Yale University,https://www.coursera.org/learn/law-student,law-student
9,AI For Everyone,DeepLearning.AI,https://www.coursera.org/learn/ai-for-everyone,ai-for-everyone
215,AI for Medical Diagnosis,DeepLearning.AI,https://www.coursera.org/learn/ai-for-medical-...,ai-for-medical-diagnosis


 <font size="4" color="white"><li><left><i>Analizamos duplicados:</i></left></font>

In [64]:
# Contamos valor repetidos en 'nombre_curso'
Coursera_courses['nombre_curso'].value_counts()

Introduction to Psychology                                                2
Machine Learning                                                          1
Career 911: Your Future Job in Medicine and Healthcare                    1
Introduction to Trading, Machine Learning & GCP                           1
Python Programming: A Concise Introduction                                1
                                                                         ..
Building Scalable Java Microservices with Spring Boot and Spring Cloud    1
Introduction to Forensic Science                                          1
Google Cloud Product Fundamentals                                         1
American Contract Law I                                                   1
A Crash Course in Data Science                                            1
Name: nombre_curso, Length: 622, dtype: int64

<font size="4"><li><left><i>Valores duplicados solo para el curso `Introduction to Psychology`.</i></left></font>

In [65]:
# Traer filas con duplicados
filas_duplicadas = eda.get_duplicate_rows(Coursera_courses, 'nombre_curso')
filas_duplicadas.head()

Unnamed: 0,nombre_curso,institucion,url_curso,id_curso
6,Introduction to Psychology,Yale University,https://www.coursera.org/learn/introduction-ps...,introduction-psychology
54,Introduction to Psychology,University of Toronto,https://www.coursera.org/learn/introduction-psych,introduction-psych


<font size="4"><li><left><i>Se define que el curso no es necesariamente el mismo, se mantienen ambas filas.</i></left></font>

In [66]:
# Contamos valor repetidos en 'institucion'
Coursera_courses['institucion'].value_counts()

University of Pennsylvania       43
University of Michigan           31
Duke University                  24
Google Cloud                     22
IBM                              18
                                 ..
EDHEC Business School             1
INSEAD                            1
Google - Spectrum Sharing         1
New York Institute of Finance     1
UCL School of Management          1
Name: institucion, Length: 134, dtype: int64

<font size="4"><li><left><i>Existen 134 `instituciones` y University of Pennsylvania es el valor más repetido con 43 cursos.  </i></left></font>

In [67]:
# Contamos valor repetidos en 'url_curso'
Coursera_courses['url_curso'].value_counts()

https://www.coursera.org/learn/machine-learning                             1
https://www.coursera.org/learn/english-composition                          1
https://www.coursera.org/learn/wharton-communication-skills                 1
https://www.coursera.org/learn/introduction-trading-machine-learning-gcp    1
https://www.coursera.org/learn/python-programming-introduction              1
                                                                           ..
https://www.coursera.org/learn/solar-energy-basics                          1
https://www.coursera.org/learn/bootstrap-4                                  1
https://www.coursera.org/learn/google-cloud-java-spring                     1
https://www.coursera.org/learn/forensic-science                             1
https://www.coursera.org/learn/data-science-course                          1
Name: url_curso, Length: 623, dtype: int64

<font size="4"><li><left><i>Todos valores únicos para `url_curso`.</i></left></font>

In [68]:
# Contamos valor repetidos en 'id_curso'
Coursera_courses['id_curso'].value_counts()

machine-learning                             1
english-composition                          1
wharton-communication-skills                 1
introduction-trading-machine-learning-gcp    1
python-programming-introduction              1
                                            ..
solar-energy-basics                          1
bootstrap-4                                  1
google-cloud-java-spring                     1
forensic-science                             1
data-science-course                          1
Name: id_curso, Length: 623, dtype: int64

<font size="4"><li><left><i>Todos valores únicos para `id_curso`.</i></left></font>

<font size="4"><li><left><i>Opcional, en caso de neceistar el `id_curso` como `int`:</i></left></font>

In [50]:
Coursera_courses = eda.sort_and_replace(Coursera_courses, 'nombre_curso', 'id_curso')

In [51]:
Coursera_courses.head()

Unnamed: 0,nombre_curso,institucion,url_curso,id_curso
261,A Crash Course in Causality: Inferring Causal...,University of Pennsylvania,https://www.coursera.org/learn/crash-course-in...,0
622,A Crash Course in Data Science,Johns Hopkins University,https://www.coursera.org/learn/data-science-co...,1
396,A Law Student's Toolkit,Yale University,https://www.coursera.org/learn/law-student,2
9,AI For Everyone,DeepLearning.AI,https://www.coursera.org/learn/ai-for-everyone,3
215,AI for Medical Diagnosis,DeepLearning.AI,https://www.coursera.org/learn/ai-for-medical-...,4


In [52]:
Coursera_courses.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 623 entries, 261 to 365
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   nombre_curso  623 non-null    object
 1   institucion   623 non-null    object
 2   url_curso     623 non-null    object
 3   id_curso      623 non-null    int64 
dtypes: int64(1), object(3)
memory usage: 24.3+ KB
