# Proyecto Final

## 1. Dataset: Diagnóstico Diabetes
### 1.1 Introducción.

###### La enfermedad de Diabetes es de las más comunes dentro de las enfermedades crónicas, afectando a casi el 13% de la población mundial y generando miles de muertes todos los años, en los casos más extremos. La gran mayoría de alimentos que consumimos tiene glucosa (azúcar) y el cuerpo la transforma en energía procesándola a través de la insulina (hormona generada por el páncreas). Es aquí donde la Diabetes entra en juego ya que las personas que sufren de esta enfermedad no producen dicha hormona o sí lo hacen pero su cuerpo no la utiliza adecuadamente y esto genera un aumento en los niveles de azúcar en sangre, lo que con el tiempo puede generar problemas graves de salud como enfermedades del corazón, pérdida de la visión e incluso de extremidades y afectar gravemente los riñones. Si bien no existe una cura para la Diabetes, en muchos casos la misma puede ser reversible de forma natural con pérdida de peso y una dieta sana y, en casos más serios, ser manejada con medicamentos.

###### El Dataset bajo análisis posee información recopilada por el Sistema de Vigilancia de Factores de Riesgo del Comportamiento (SVFRC), el cual realiza encuestas telefónicas relacionadas con la salud para que luego la Centro de Control y Prevención de Enfermedades (CDC) tenga un vistazo general de la situación de salud nacional de Estados Unidos. El objetivo del presente trabajo será utilizar dichos datos para crear un modelo que, basado en las distintas variables relacionadas con esta enfermedad, pueda predecir y/o detectar rápidamente la misma para evitar que esta llegue a sus peores consecuencias en las personas.

### 1.2 Preparación del Dataset.

###### Antes de comenzar con el anáisis y el armado del modelo es impresindible contar con las herramientas que vamos a necesitar para el mismo. En primer lugar, se importarán las librerías Pandas y Numpy:

In [1]:
import pandas as pd

In [2]:
import numpy as np

###### En segundo lugar, se importará el archivo CSV utilizando la librería Pandas y se mostrarán 5 registros para verificar cómo se visualiza el archivo:

In [6]:
Diabetes = pd.read_csv("Diabetes parameters.csv",delimiter=";")
Diabetes.tail(5)

Unnamed: 0,Diabetes_012,HighBP,HighChol,CholCheck,BMI,Smoker,Stroke,HeartDiseaseorAttack,PhysActivity,Fruits,...,AnyHealthcare,NoDocbcCost,GenHlth,MentHlth,PhysHlth,DiffWalk,Sex,Age,Education,Income
287253,0.0,0.0,0.0,1.0,21.0,1.0,0.0,0.0,1.0,1.0,...,1.0,0.0,1.0,0.0,0.0,0.0,1.0,4.0,6.0,8.0
287254,0.0,1.0,0.0,1.0,39.0,1.0,0.0,0.0,1.0,0.0,...,1.0,0.0,3.0,0.0,0.0,0.0,0.0,11.0,4.0,4.0
287255,0.0,0.0,0.0,1.0,35.0,0.0,0.0,0.0,1.0,0.0,...,1.0,0.0,2.0,20.0,0.0,0.0,1.0,1.0,6.0,5.0
287256,0.0,1.0,0.0,1.0,24.0,0.0,0.0,0.0,1.0,1.0,...,1.0,0.0,2.0,0.0,0.0,0.0,1.0,12.0,6.0,6.0
287257,0.0,0.0,1.0,0.0,19.0,1.0,0.0,0.0,0.0,0.0,...,1.0,0.0,3.0,0.0,5.0,1.0,0.0,10.0,3.0,2.0


###### Una vez que se verifica que se ha importado el archivo correctamente, es de suma importancia conocer las proporciones del mismo, esto es, la forma, el nombre y tipo de dato de las columnas, si existen datos nulos, el tipo de dato de cada columna, las medidas básicas (media, desvío, conteo, mínimo, cuartiles y máximo):

In [None]:
Diabetes.shape

(287258, 22)

In [None]:
Diabetes.columns

Index(['Diabetes_012', 'HighBP', 'HighChol', 'CholCheck', 'BMI', 'Smoker',
       'Stroke', 'HeartDiseaseorAttack', 'PhysActivity', 'Fruits', 'Veggies',
       'HvyAlcoholConsump', 'AnyHealthcare', 'NoDocbcCost', 'GenHlth',
       'MentHlth', 'PhysHlth', 'DiffWalk', 'Sex', 'Age', 'Education',
       'Income'],
      dtype='object')

In [None]:
Diabetes.dtypes

Diabetes_012            float64
HighBP                  float64
HighChol                float64
CholCheck               float64
BMI                     float64
Smoker                  float64
Stroke                  float64
HeartDiseaseorAttack    float64
PhysActivity            float64
Fruits                  float64
Veggies                 float64
HvyAlcoholConsump       float64
AnyHealthcare           float64
NoDocbcCost             float64
GenHlth                 float64
MentHlth                float64
PhysHlth                float64
DiffWalk                float64
Sex                     float64
Age                     float64
Education               float64
Income                  float64
dtype: object

In [None]:
Diabetes.isnull().sum()

Diabetes_012            0
HighBP                  0
HighChol                0
CholCheck               0
BMI                     0
Smoker                  0
Stroke                  0
HeartDiseaseorAttack    0
PhysActivity            0
Fruits                  0
Veggies                 0
HvyAlcoholConsump       0
AnyHealthcare           0
NoDocbcCost             0
GenHlth                 0
MentHlth                0
PhysHlth                0
DiffWalk                0
Sex                     0
Age                     0
Education               0
Income                  0
dtype: int64

In [None]:
Diabetes.describe()

Unnamed: 0,Diabetes_012,HighBP,HighChol,CholCheck,BMI,Smoker,Stroke,HeartDiseaseorAttack,PhysActivity,Fruits,...,AnyHealthcare,NoDocbcCost,GenHlth,MentHlth,PhysHlth,DiffWalk,Sex,Age,Education,Income
count,287258.0,287258.0,287258.0,287258.0,287258.0,287258.0,287258.0,287258.0,287258.0,287258.0,...,287258.0,287258.0,287258.0,287258.0,287258.0,287258.0,287258.0,287258.0,287258.0,287258.0
mean,0.262214,0.422742,0.419142,0.962055,28.311963,0.442,0.039567,0.091698,0.75884,0.634757,...,0.950995,0.083897,2.496508,3.16873,4.174926,0.164316,0.439695,8.00417,5.055884,6.069126
std,0.662987,0.493996,0.49342,0.191064,6.566517,0.496625,0.19494,0.2886,0.427788,0.481499,...,0.215878,0.277233,1.064207,7.389841,8.650077,0.370562,0.496351,3.05978,0.983465,2.065656
min,0.0,0.0,0.0,0.0,12.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0
25%,0.0,0.0,0.0,1.0,24.0,0.0,0.0,0.0,1.0,0.0,...,1.0,0.0,2.0,0.0,0.0,0.0,0.0,6.0,4.0,5.0
50%,0.0,0.0,0.0,1.0,27.0,0.0,0.0,0.0,1.0,1.0,...,1.0,0.0,2.0,0.0,0.0,0.0,0.0,8.0,5.0,7.0
75%,0.0,1.0,1.0,1.0,31.0,1.0,0.0,0.0,1.0,1.0,...,1.0,0.0,3.0,2.0,3.0,0.0,1.0,10.0,6.0,8.0
max,2.0,1.0,1.0,1.0,98.0,1.0,1.0,1.0,1.0,1.0,...,1.0,1.0,5.0,30.0,30.0,1.0,1.0,13.0,6.0,8.0


###### En base a lo ejecutado hasta ahora, se puede ver que el dataset consta de:
* ######    22 columnas.
* ######    287258 filas.
* ######    Datos numéricos.
* ######    No hay datos nulos.

###### Por otro lado, las variables bajo análisis son las siguientes:
* ###### **Diabetes_012:** Si la persona tiene o no diabetes. 0 = no tiene diabetes, 1 = prediebetes y 2 = diabetes. Se considera que la persona tiene "prediabetes" cuando tienen cierta dificultad con el manejo de la insulina y poseen un nivel de entre 100 y 125 mg/dl de glucosa en sangre estando en ayunas.
* ###### **HighBP:** Presión. 0 = presión normal/baja y 1 = presión alta. Se considera presión alta cuando supera los 140/90.
* ###### **HighChol:** Colesterol. 0 = colesterol normal/bajo y 1 = colesterol alto. Se considera colesterol bueno alto cuando es mayor a 35 mg/dl en el hombre y a 40 mg/dl en la mujer. Se considera colesterol malo alto cuando es mayor de 160 mg/dl.
* ###### **CholCheck:** Si la persona se ha chequeado el colesterol en los últimos años. 0 = no chequeado en 5 años y 1 = chequeado en 5 años.
* ###### **BMI:** Indice de Masa Corporal. <18,5 = muy delgado, <24,5 normal, <29,9 algo de sobrepeso, <34,9 obeso y >40 obesidad extrema.
* ###### **Smoker:** Si la persona fuma. 0 = no fuma y 1 = fuma.
* ###### **Stroke:** Si la persona tuvo algún ACV. 0 = no y 1 = sí.
* ###### **HeartDiseaseorAttack:** Si la persona tiene o tuvo algún problema de corazón o paro cardíaco. 0 = no y 1 = sí.
* ###### **PhysActivity:** Si la persona ha realizado actividad física en los últimos 30 días. 0 = no y 1 = sí.
* ###### **Fruits y Veggies:** Si la persona consume fruta diariamente. 0 = no y 1 = sí.
* ###### **HvyAlcoholConsump:** Si la persona toma más de 14 veces por semana. O = no y 1 = sí.
* ###### **AnyHealthCare:** Si la persona tiene o no cobertura médica. 0 = no y 1 = sí.
* ###### **NoDocbcCost:** Si la persona quizo ver a un médico en los últimos 12 meses y no pudo por su costo. 0 = no y 1 = sí.
* ###### **GenHealth:** Si la persona tiene alguna condición de salud. Escala de 0 a 5 donde 5 es muy bien de salud y 0 mal de salud.
* ###### **MentHlth:** Durante cuántos días, en los últimos 30 días, se sintió mal mentalmente la persona. Escala de 0 a 30.
* ###### **PhysHlth:** Durante cuántos días, en los últimos 30 días, se sintió mal físicamente la persona. Escala de 0 a 30.
* ###### **DiffWalk:** Si la persona tiene dificultades serias para caminar o trepar. 0 = no y 1 = sí.
* ###### **Sex:** Sexo. 0 = mujer y 1 = hombre.
* ###### **Education:** Último grado aprobado del colegio primario. Escala de 1 a 6.
* ###### **Age e Income:** Para la edad se utiliza un índice de 14 rangos de edad. Para los ingresos se utiliza un índice de 8 rangos de ingresos anuales. Se muestram dichos rangos en las tablas debajo:

In [None]:
Rango_edad = pd.DataFrame()


Rango_edad["Valor"] = [1,2,3,4,5,6,7,8,9,10,11,12,13]
Rango_edad["Edad"] = ["18-24","25-29","30-34","35-39","40-44","45-49","50-54","55-59","60-64","65-69","70-74","75-79",">80"]


print(Rango_edad)

    Valor   Edad
0       1  18-24
1       2  25-29
2       3  30-34
3       4  35-39
4       5  40-44
5       6  45-49
6       7  50-54
7       8  55-59
8       9  60-64
9      10  65-69
10     11  70-74
11     12  75-79
12     13    >80


In [None]:
Rango_ingresos = pd.DataFrame()


Rango_ingresos["Valor"] = [1,2,3,4,5,6,7,8]
Rango_ingresos["Edad"] = [10000,18125,26250,34375,42500,50625,58750,75000]


print(Rango_ingresos)

   Valor   Edad
0      1  10000
1      2  18125
2      3  26250
3      4  34375
4      5  42500
5      6  50625
6      7  58750
7      8  75000


###### Finalmente, cabe destacar que todas las variables incluidas en el Dataset son de igual importancia ya que un cambio en cualquiera de ellas puede acrecentar o reducir drásticamente las probabilidades de que una persona tenga o sea propensa a tener diabetes.

## 2. Dataset: Calidad del Vino
### 2.1 Introducción.

###### El vino es una de las bebidas más consumidas a nivel mundial desde su creación, ya sea durante reuniones sociales, salidas familiares o en pareja, ritos religiosos, momentos de relajación durante el día y degustaciones, y su consumo se ha vuelto tan relevante que hoy en día existe una cierta "Cultura Vitivinícola" o "Viticultura". 

###### El aspecto fundamental de los vinos es justamente su calidad ya que la misma puede incluso determinar en qué situaciones se beberán y al mismo tiempo es el principal tema de discusión para aquellos amantes del vino. Por ello, los grandes fabricantes y comerciantes hacen cada vez más hincapié en este aspecto a la hora de promocionar sus productos y, sin ser algo menor, a la hora de colocarle el precio a los mismos. Sin embargo, este último punto puede parecer algo abstracto para aquellos que no siguen de cerca el tema y es por ello que el objetivo de este trabajo se centrará en analizar las principales características de los vinos tintos y blancos para crear un modelo que permita establecer cuáles de ellas son determinantes para saber si un vino es, o no, de calidad.

### 2.2 Preparación del Dataset.

###### Antes de comenzar con el anáisis y el armado del modelo es impresindible contar con las herramientas que vamos a necesitar para el mismo. En primer lugar, se importarán las librerías Pandas y Numpy:

In [None]:
import pandas as pd

In [None]:
import numpy as np

###### En segundo lugar, se importará el archivo CSV utilizando la librería Pandas y se mostrarán 5 registros para verificar cómo se visualiza el archivo:

In [8]:
Vinos = pd.read_csv("winequality.csv",delimiter=";")
Vinos.tail(5)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,Type
6492,6.2,0.6,0.08,2.0,0.09,32.0,44.0,0.9949,3.45,0.58,10.5,5,red
6493,5.9,0.55,0.1,2.2,0.062,39.0,51.0,0.99512,3.52,0.76,11.2,6,red
6494,6.3,0.51,0.13,2.3,0.076,29.0,40.0,0.99574,3.42,0.75,11.0,6,red
6495,5.9,0.645,0.12,2.0,0.075,32.0,44.0,0.99547,3.57,0.71,10.2,5,red
6496,6.0,0.31,0.47,3.6,0.067,18.0,42.0,0.99549,3.39,0.66,11.0,6,red


###### Una vez que se verifica que se ha importado el archivo correctamente, es de suma importancia conocer las proporciones del mismo, esto es, la forma, el nombre y tipo de dato de las columnas, si existen datos nulos, el tipo de dato de cada columna, las medidas básicas (media, desvío, conteo, mínimo, cuartiles y máximo):

In [None]:
Vinos.shape

(6497, 13)

In [None]:
Vinos.columns

Index(['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality', 'Type'],
      dtype='object')

In [None]:
Vinos.dtypes

fixed acidity           float64
volatile acidity        float64
citric acid             float64
residual sugar          float64
chlorides               float64
free sulfur dioxide     float64
total sulfur dioxide    float64
density                 float64
pH                      float64
sulphates               float64
alcohol                 float64
quality                   int64
Type                     object
dtype: object

In [None]:
Vinos.isnull().sum()

fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
Type                    0
dtype: int64

In [None]:
Vinos.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,quality
count,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0
mean,7.215307,0.339666,0.318633,5.443235,0.056034,30.525319,115.744574,1.710882,3.218501,0.531268,5.818378
std,1.296434,0.164636,0.145318,4.757804,0.035034,17.7494,56.521855,7.636088,0.160787,0.148806,0.873255
min,3.8,0.08,0.0,0.6,0.009,1.0,6.0,0.98711,2.72,0.22,3.0
25%,6.4,0.23,0.25,1.8,0.038,17.0,77.0,0.99234,3.11,0.43,5.0
50%,7.0,0.29,0.31,3.0,0.047,29.0,118.0,0.99489,3.21,0.51,6.0
75%,7.7,0.4,0.39,8.1,0.065,41.0,156.0,0.99699,3.32,0.6,6.0
max,15.9,1.58,1.66,65.8,0.611,289.0,440.0,103.898,4.01,2.0,9.0


###### En base a lo ejecutado hasta ahora, se puede ver que el dataset consta de:
* ###### 13 columnas.
* ###### 6497 filas.
* ###### Datos numéricos.
* ###### No hay datos nulos.

###### Por otro lado, las variables bajo análisis son las siguientes:
* ###### **Fixed acidity:** Cantidad de ácido tartárico. Es el ácido más importante ya que es el responsable de aportarle frescura y sabor a fruta madura.
* ###### **Acidez volátil:** Cantidad de ácido acético. De él depende en gran medida la acidéz que tomará el vino cuando se eleve la temperatura.
* ###### **Ácido cítrico:** Cantidad de ácido cítrico. Permite corregir la acidéz del vino.
* ###### **Azúcar residual:** Cantidad de azúcar luego de la fermentación.
* ###### **Dióxido de azufre libre:** Cantidad de azúfre libre. Preserva el vino.
* ###### **Densidad:** Densidad del vino.
* ###### **PH:** PH del vino. Escala de 0 a 14, siendo 0 = acidéz alta y 14 = acidéz básica.
* ###### **Sulfatos:** Cantidad de sulfato de potasio. En el mosto, ayuda a extraer el color y regula la fermentación en caso de temperatura ambiente muy alta.
* ###### **Alcohol:** Nivel de alcohol.
* ###### **Calidad:** Calidad del vino. Escala del 1 al 10.

###### Finalmente, cabe destacar que todas las variables incluidas en el Dataset son de igual importancia ya que un cambio en cualquiera de ellas puede acrecentar o reducir drásticamente las probabilidades de que una persona tenga o sea propensa a tener diabetes.

## 3. Dataset: Hunter´s Supermarket
### 3.1 Introducción.

###### El presente Dataset posee información de miles de compras realizadas en el supermercado Hunter´s, el cual tiene sedes en 10 países, y se analiza con el objetivo de vislumbrar tendencias de compras y tipos de clientes que concurren al mismo con el fin de plantear una estrategia para atraer más clientes y continuar creciendo.

### 3.2 Preparación del Dataset.

###### Antes de comenzar con el anáisis y el armado del modelo es impresindible contar con las herramientas que vamos a necesitar para el mismo. En primer lugar, se importarán las librerías Pandas y Numpy:

In [None]:
import pandas as pd

In [None]:
import numpy as pt

###### En segundo lugar, se importará el archivo CSV utilizando la librería Pandas y se mostrarán 5 registros para verificar cómo se visualiza el archivo:

In [7]:
Ventas = pd.read_csv("Hoper´s supermarket.csv",delimiter=",")
Ventas.tail(5)

Unnamed: 0,order_id,user_id,order_number,order_dow,order_hour_of_day,days_since_prior_order,product_id,add_to_cart_order,reordered,department_id,department,product_name
388049,1003717,70311,14,6,12,6.0,104,3,0,13,pantry,spices seasonings
388050,1003717,70311,14,6,12,6.0,69,4,0,15,canned goods,soup broth bouillon
388051,1003717,70311,14,6,12,6.0,63,5,1,9,dry goods pasta,grains rice dried goods
388052,1003717,70311,14,6,12,6.0,86,6,1,16,dairy eggs,eggs
388053,1003717,70311,14,6,12,6.0,36,7,1,16,dairy eggs,butter


###### Una vez que se verifica que se ha importado el archivo correctamente, es de suma importancia conocer las proporciones del mismo, esto es, la forma, el nombre y tipo de dato de las columnas, si existen datos nulos, el tipo de dato de cada columna, las medidas básicas (media, desvío, conteo, mínimo, cuartiles y máximo):

In [None]:
Ventas.shape

(388054, 12)

In [None]:
Ventas.columns

Index(['order_id', 'user_id', 'order_number', 'order_dow', 'order_hour_of_day',
       'days_since_prior_order', 'product_id', 'add_to_cart_order',
       'reordered', 'department_id', 'department', 'product_name'],
      dtype='object')

In [None]:
Ventas.dtypes

order_id                    int64
user_id                     int64
order_number                int64
order_dow                   int64
order_hour_of_day           int64
days_since_prior_order    float64
product_id                  int64
add_to_cart_order           int64
reordered                   int64
department_id               int64
department                 object
product_name               object
dtype: object

In [None]:
Ventas.isnull().sum()

order_id                      0
user_id                       0
order_number                  0
order_dow                     0
order_hour_of_day             0
days_since_prior_order    25016
product_id                    0
add_to_cart_order             0
reordered                     0
department_id                 0
department                    0
product_name                  0
dtype: int64

In [None]:
Ventas.describe()

Unnamed: 0,order_id,user_id,order_number,order_dow,order_hour_of_day,days_since_prior_order,product_id,add_to_cart_order,reordered,department_id
count,388054.0,388054.0,388054.0,388054.0,388054.0,363038.0,388054.0,388054.0,388054.0,388054.0
mean,1704180.0,103349.970945,17.169623,2.717807,13.411644,11.4118,71.269808,8.385351,0.586872,9.938836
std,985948.7,59431.786355,17.587073,2.100146,4.219255,8.952086,38.128431,7.14347,0.492396,6.28724
min,11.0,3.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0
25%,852056.0,51876.0,5.0,1.0,10.0,5.0,31.0,3.0,0.0,4.0
50%,1695652.0,103222.0,11.0,2.0,13.0,8.0,83.0,6.0,1.0,9.0
75%,2553694.0,154888.0,24.0,5.0,16.0,15.0,107.0,12.0,1.0,16.0
max,3420977.0,206206.0,100.0,6.0,23.0,30.0,134.0,93.0,1.0,21.0


###### En base a lo ejecutado hasta ahora, se puede ver que el dataset consta de:
* ###### 12 columnas.
* ###### 388054 filas.
* ###### Datos numéricos y texto.
* ###### Existen datos nulos en la columna de Days_since_prior_order.

###### Por otro lado, las variables bajo análisis son las siguientes:
* ###### **Order_id:** Número de identificación único para cada órden de compra. 
* ###### **User_id:**: Número de identificación único para cada cliente.
* ###### **Order_number:** Número de órden.
* ###### **Order_Dow:** Día de la semana que fue realizada la compra.
* ###### **Order_hour_of_day:** Hora en la que fue realizada la compra.
* ###### **Days_since_prior_order:** Días desde la última compra.
* ###### **Product_id:** Número de identificación único para cada producto.
* ###### **Add_to_cart_order:** Cantidad de productos comprados en la misma compra.
* ###### **Reordered:** Si la compra fue repetida. 0 = no y 1 = sí.
* ###### **Department_id:** Número de identificación único para cada departamento (categoría de productos).
* ###### **Department:** Nombre del departamente.
* ###### **Product_name:** Nombre de la categoría de productos.

###### Finalmente, cabe destacar que todas las variables incluidas en el Dataset son de igual importancia ya que un cambio en cualquiera de ellas puede acrecentar o reducir drásticamente las probabilidades de que una persona tenga o sea propensa a tener diabetes.