# Entrega 1 - Elección de datasets potenciales

## Importación de módulos

In [12]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Dataset 1 - student info at higher education institute

#### Fuente:
https://www.kaggle.com/datasets/thedevastator/higher-education-predictors-of-student-retention

#### Información sobre el dataset:

A dataset created from a higher education institution (acquired from several disjoint databases) related to students enrolled in different undergraduate degrees, such as agronomy, design, education, nursing, journalism, management, social service, and technologies.

The dataset includes information known at the time of student enrollment (academic path, demographics, and social-economic factors) and the students' academic performance at the end of the first and second semesters.

The data is used to build classification models to predict students' dropout and academic success.

### Carga de los datos a python:

In [13]:
studentsDF = pd.read_csv('../data/DS 1 - Students.csv')

studentsDF.shape

(4424, 35)

Vemos que este dataset cumple con las condiciones necesarias para la entrega, ahora pasamos a describir las columnas más interesantes de acuerdo al problema planteado (analizar la deserción y el éxito de los alumnos).

In [14]:
#Primero imprimimos una visualización de las columnas

print(studentsDF.columns)

Index(['Marital status', 'Application mode', 'Application order', 'Course',
       'Daytime/evening attendance', 'Previous qualification', 'Nacionality',
       'Mother's qualification', 'Father's qualification',
       'Mother's occupation', 'Father's occupation', 'Displaced',
       'Educational special needs', 'Debtor', 'Tuition fees up to date',
       'Gender', 'Scholarship holder', 'Age at enrollment', 'International',
       'Curricular units 1st sem (credited)',
       'Curricular units 1st sem (enrolled)',
       'Curricular units 1st sem (evaluations)',
       'Curricular units 1st sem (approved)',
       'Curricular units 1st sem (grade)',
       'Curricular units 1st sem (without evaluations)',
       'Curricular units 2nd sem (credited)',
       'Curricular units 2nd sem (enrolled)',
       'Curricular units 2nd sem (evaluations)',
       'Curricular units 2nd sem (approved)',
       'Curricular units 2nd sem (grade)',
       'Curricular units 2nd sem (without evaluations)

Podríamos considerar realizar un análisis de qué alumnos tienen más probabilidad de éxito en sus cursadas, de acuerdo a los datos que se encuentran en el dataset. En ese caso las columnas más relevantes serían (en orden de aparición):
<ul>
<li>
<b>Course</b>: importante porque cada carrera tendrá sus particularidades, que serán un factor determinante en la cursada del estudiante. Además nos permite analizar la deserción según carrera.
</li>
<li>
<b>D/E attendance</b>: utilizando este dato podemos observar si el horario de cursada está relacionado a, o afecta de alguna manera el resultado de la cursada.
</li>
<li>
<b>Prev. qualification</b>: conocer el nivel académico y habilidades de cada estudiante previo a comenzar nos puede indicar si afecta el desarrollo de la cursada, al compararlo con otros estudiantes en distintos niveles. 
</li>
<li>
<b>Variables socioeconómicas</b>: nucleando las 4 columnas que tratan de los padres del estudiante, junto con las variables <b>Displaced</b>, <b>Debtor</b>, <b>Tuition fees up to date</b> y <b>Scholarship holder</b>, podríamos realizar un diagnóstico socioeconómico del estudiante que sería útil para realizar comparaciones con otros estudiantes y sus resultados.
</li>
<li>
<b>Educational special needs</b>: importante variable ya que nos indica que el estudiante posee necesidades especiales, y podemos observar si ésto influye (y cómo) en los resultados de cursada.
</li>
<li>
<b>Resultados de semestres</b>: por supuesto que las variables "Curricular units" serán importantes para el análisis ya que nos indican el desarrollo y resultado de la cursada.
</li>
</ul>

## Dataset 2 - SEER Breast Cancer Dataset

#### Fuente:
https://zenodo.org/record/5120960

#### Información sobre el dataset:
This dataset of breast cancer patients was obtained from the 2017 November update of the SEER Program of the NCI, which provides information on population-based cancer statistics. The dataset involved female patients with infiltrating duct and lobular carcinoma breast cancer (SEER primary cites recode NOS histology codes 8522/3) diagnosed in 2006-2010. Patients with unknown tumor size, examined regional LNs, regional positive LNs, and patients whose survival months were less than 1 month were excluded; thus, 4024 patients were ultimately included.

### Carga de los datos a python:

In [15]:
seerBreastCancerDF = pd.read_csv('../data/DS 2 - SEER Breast Cancer Dataset.csv')

seerBreastCancerDF.shape

(4024, 16)

Viendo que cumple las condiciones del desafío, analizamos las columnas relevantes.

In [16]:
#Imprimimos las columnas:

print(seerBreastCancerDF.columns)

Index(['Age', 'Race ', 'Marital Status', 'Unnamed: 3', 'T Stage ', 'N Stage',
       '6th Stage', 'Grade', 'A Stage', 'Tumor Size', 'Estrogen Status',
       'Progesterone Status', 'Regional Node Examined',
       'Reginol Node Positive', 'Survival Months', 'Status'],
      dtype='object')


En este caso resulta interesante analizar como se relacionan las distintas variables para determinar la supervivencia de la paciente, de acuerdo a los períodos contemplados.

<ul>
<li>
<b>Age</b>: representa la edad al momento de diagnóstico, una métrica importante en el ámbito de la salud que nos puede servir para comparar con otras pacientes y determinar si influye en la supervivencia.
</li>
<li>
<b>Race</b>: podemos analizar si la etnia de la persona influye en el desarrollo del cáncer.
</li>
<li>
<b>Stages</b>: las columnas <b>T Stage</b>, <b>N Stage</b>, <b>6th Stage</b>, y <b>A Stage</b> nos brindan información sobre el/los tumores y su localización, vital para determinar la supervivencia de la paciente.
</li>
<li>
<b>Hormonas</b>: las variables <b>Estrogen Status</b> y <b>Progesternoe Status</b> nos pueden indicar si hay una relación entre su presencia y la supervivencia
</li>
<li>
<b>Survival Months</b>: muy importante para determinar, en los casos de muerte, la esperanza de vida de las pacientes según cada cáncer, y en los casos de vida, comparar con lo obtenido anteriormente para analizar la fiabilidad de los resultados.
</li>
<li>
<b>Status</b>: el dato clave que nos indica si la paciente falleció o sigue viva para la fecha de la muestra. 
</li>
</ul>

## Dataset 3 - Marketing Campaign

#### Fuente:
https://www.kaggle.com/datasets/imakash3011/customer-personality-analysis

#### Información sobre el dataset:
Customer Personality Analysis is a detailed analysis of a company’s ideal customers. It helps a business to better understand its customers and makes it easier for them to modify products according to the specific needs, behaviors and concerns of different types of customers.

Customer personality analysis helps a business to modify its product based on its target customers from different types of customer segments. For example, instead of spending money to market a new product to every customer in the company’s database, a company can analyze which customer segment is most likely to buy the product and then market the product only on that particular segment.

### Carga de los datos a python

In [17]:
marketingDF = pd.read_table('../data/DS 3 - Marketing Campaign.txt')

marketingDF.shape

(2240, 29)

Ya vemos que cumple la condición del desafío. Ahora observamos las columnas para analizar las más importantes.

In [18]:
# Imprimimos las columnas

print(marketingDF.columns)

Index(['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome',
       'Teenhome', 'Dt_Customer', 'Recency', 'MntWines', 'MntFruits',
       'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts',
       'MntGoldProds', 'NumDealsPurchases', 'NumWebPurchases',
       'NumCatalogPurchases', 'NumStorePurchases', 'NumWebVisitsMonth',
       'AcceptedCmp3', 'AcceptedCmp4', 'AcceptedCmp5', 'AcceptedCmp1',
       'AcceptedCmp2', 'Complain', 'Z_CostContact', 'Z_Revenue', 'Response'],
      dtype='object')


El objetivo del dataset es categorizar a los distintos clientes, para entender la base consumidora de la empresa y asi adaptar los productos según la misma. Para esto las columnas mas importantes serían:

<b>Columnas sobre la persona</b>: 
<ul>
<li>
<b>Income</b>: nos sirve como métrica demográfica.
</li>
<li>
<b>Dt_Customer</b>: es la fecha en la que comenzó a ser cliente, útil para determinar la fidelidad y si los clientes continúan comprando en el tiempo.
</li>
<li>
<b>Recency</b>: es el número de días desde la última compra del cliente. Podemos utilizarla para determinar si el cliente ha desertado.
</li>
</ul>
<b>Columnas sobre productos comprados</b>:
<ul>
<li>
<b>Suma gastada por producto</b>: las columnas "Mnt..." nos indican la suma que el cliente ha gastado según producto. Muy importante para determinar los intereses del cliente, y ver los productos más vendidos.
</li>
</ul>
<b>Columnas sobre el lugar de compra</b>:
<ul>
<li>
<b>Num "..." Purchases</b>: estas columnas nos indican el numero de compras realizadas según el lugar (tienda web, local o catálogo), nos indican qué método de compra prefieren los clientes, y cuantas compras han realizado.
</li>
</ul>