## **Bootcamp: Ciencia de Datos e Inteligencia Artificial**
## **Proyecto del Módulo 7: Técnicas avanzadas para ciencia de datos y empleabilidad**

Hola, ya es el último proyecto, has avanzado y aprendido mucho hasta acá. ¡Muchas felicidades!

Es hora de poner en práctica todo lo que hemos aprendido a lo largo de nuestra travesía.

Lee el proyecto y revisa con cuidado cada una de las instrucciones. Procura plasmar todo tu potencial para que lo concluyas de manera sobresaliente.

¡Éxito!

# Objetivos
- Aplicar con éxito todos los conocimientos que has adquirido a lo largo del Bootcamp.
- Consolidar las técnicas de limpieza, entrenamiento, graficación y ajuste a modelos de *Machine Learning*.
- Generar una API que brinde predicciones como resultado a partir de datos enviados.


# Proyecto

1. Selecciona uno de los siguientes *datasets*:
  - Imágenes de rayos X de pecho para detectar neumonía: https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia
  - *Reviews* de aplicaciones de la Google Play Store: https://www.kaggle.com/datasets/lava18/google-play-store-apps
  - Estadísticas demográficas de los ganadores del premio Oscar de la Academia: https://www.kaggle.com/datasets/fmejia21/demographics-of-academy-awards-oscars-winners
  - Aspiraciones profesionales de la generación Z: https://www.kaggle.com/datasets/kulturehire/understanding-career-aspirations-of-genz

Cada uno representa un *dataset*, un problema y una forma diferente de abordarlo. Tu tarea es identificar las técnicas y modelos que podrías usar para tu proyecto.

2. Debes hacer un análisis exploratorio y limpieza de los datos. Usa las ténicas que creas convenientes.

3. Entrena el modelo de *Machine Learning*, procesamiento de lenguaje natural o red neuronal que creas adecuado.

4. Genera por lo menos dos gráficas y dos métricas de rendimiento; explica las puntuaciones de rendimiento que amerite tu problema. Todas las gráficas de rendimiento que realices deben tener leyendas, colores y títulos personalizados por ti.

  - Además, antes de subir el modelo a "producción", deberás realizar un proceso de ensambles (*ensemblings*) y de ajuste de hiperparámetros o *tuning* para intentar mejorar la precisión y disminuir la varianza de tu modelo.

5. Construye una API REST en la que cualquier usuario pueda mandar datos y que esta misma devuelva la predicción del modelo que has hecho. La API debe estar en la nube, ya sea en un servicio como Netlify o Ngrok, para que pueda ser consultada desde internet.

6. Genera una presentación del problema y del modelo de solución que planteas. Muestra gráficas, datos de rendimiento y explicaciones. Esta presentación debe estar enfocada a personas que no sepan mucho de ciencia de datos e inteligencia artificial.

7. **Solamente se recibirán trabajos subidos a tu cuenta de GitHub con un README.md apropiado que explique tu proyecto**.

## Criterios de evaluación

| Actividad | Porcentaje | Observaciones | Punto parcial
| -- | -- | -- | -- |
| Actividad 1. Limpieza y EDA | 20 | Realiza todas las tareas necesarias para hacer el EDA y la limpieza correcta, dependiendo de la problemática. Debes hacer como mínimo el análisis de completitud, escalamiento (si aplica) y tokenización (si aplica). | Realizaste solo algunas tareas de exploración y limpieza y el modelo se muestra aún con oportunidad de completitud, escalamiento y/o mejora. |
| Actividad 2. Entrenamiento del modelo | 20 | Elige el modelo y algoritmo adecuados para tu problema, entrénalo con los datos ya limpios y genera algunas predicciones de prueba. | No has realizado predicciones de prueba para tu modelo de ML y/o tu modelo muestra una precisión menor al 60 %. |
| Actividad 3. Graficación y métricas | 20 | Genera por lo menos dos gráficas y dos muestras de métricas que permitan visualizar el rendimiento y precisión del modelo que construiste. Además, realizaste los procesos de *tuning* y ensambles adecuados para tu problema. | Las gráficas no tienen leyendas y colores customizados, solo muestras una gráfica o no realizaste el *tuning* de hiperparámetros.
| Actividad 4. API REST | 20 | Generaste con éxito un *link* público en el que, por método POST, se puede mandar información y la API REST devuelve una predicción junto con el porcentaje de confianza de esta misma. | N/A
| Actividad 5. Presentación | 20 | Genera una presentación en la que establezcas como mínimo: el problema, proceso de solución, metodologías usadas, gráficas de rendimiento, demostración del modelo y aprendizajes obtenidos. Debes redactarla con términos que pueda entender cualquier persona, no solo científicos de datos. | La presentación no expone con claridad o en términos coloquiales el proceso de creación del modelo, sus ventajas y muestras de rendimiento.

**Mucho éxito en tu camino como Data Scientist.**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
#Importa las librerías que vayas a usar para tu proyecto, no olvides importar pandas.
import pandas as pd
import warnings
import matplotlib.pyplot as plt
import statsmodels.api as sm
import seaborn as sns
import numpy as np
import math
from pandas import to_datetime
from  functools import reduce
# Importamos las librerias necesarias
import numpy as np
import pandas as pd
%matplotlib inline
%load_ext autoreload
import datetime

# scikit-learn
from sklearn.dummy           import DummyClassifier
from sklearn.linear_model    import LogisticRegression
from sklearn.linear_model    import LinearRegression
from sklearn.linear_model    import Lasso
from sklearn.metrics         import confusion_matrix
from sklearn.metrics         import roc_curve
from sklearn.metrics         import roc_auc_score
from sklearn.preprocessing   import StandardScaler
from sklearn.model_selection import train_test_split
warnings.filterwarnings("ignore")
pd.set_option("display.max_columns",200)
pd.set_option("display.max_rows",200)

# Desarrollo del Proyecto M7
El siguiente proyecto que seleccionamos como caso de estudio, es un conjunto de datos que trata sobre estadísticas demográficas de los ganadores del premio Oscar de la Academia: https://www.kaggle.com/datasets/fmejia21/demographics-of-academy-awards-oscars-winnersinformación

## Contexto del conjunto de datos

La base de datos considera información sobre la raza, religión, edad y otros detalles demográficos de todos los ganadores del Oscar desde 1928 en las siguientes categorías:
* Mejor Actor
* Mejor Actriz
* Mejor Actor de Reparto
* Mejor Actriz de Reparto
* Mejor Director


El dataset contiene 27 columnas, a continuación una descripción de cada columna:

**unit_id:** Identificador único asignado a cada unidad de datos en el conjunto de datos.

**_golden:** Indica si la fila es una instancia verdadera o falsa. Es decir, una instancia de referencia confiable o no confiable que puede ser utilizada para evaluar la calidad del trabajo de los anotadores.

**_unit_state:** Estado de la unidad de datos, puede ser "golden", "finalized", etc.

**_trusted_judgments:** Número de juicios confiables otorgados a la unidad de datos por los anotadores.

**_last_judgment_at:** Fecha y hora del último juicio confiable otorgado a la unidad de datos.

**birthplace:** Lugar de nacimiento de la persona mencionada en la fila.

**birthplace:**confidence: Nivel de confianza en la información proporcionada sobre el lugar de nacimiento.

**date_of_birth:** Fecha de nacimiento de la persona mencionada en la fila.

**date_of_birth:confidence:** Nivel de confianza en la información proporcionada sobre la fecha de nacimiento.

**race_ethnicity:** Raza o etnia de la persona mencionada en la fila.

**race_ethnicity:confidence:** Nivel de confianza en la información proporcionada sobre la raza o etnia.

**religion:** Religión de la persona mencionada en la fila.

**religion:confidence:** Nivel de confianza en la información proporcionada sobre la religión.

**sexual_orientation:** Orientación sexual de la persona mencionada en la fila.

**sexual_orientation:confidence:** Nivel de confianza en la información proporcionada sobre la orientación sexual.

**year_of_award:** Año en el que se otorgó el premio a la persona mencionada en la fila.

**year_of_award:confidence:** Nivel de confianza en la información proporcionada sobre el año del premio.

**award:** Premio otorgado a la persona mencionada en la fila.

**biourl:** URL de la biografía de la persona mencionada en la fila.

**birthplace_gold:** Lugar de nacimiento de referencia o de alta calidad.

**date_of_birth_gold:** Fecha de nacimiento de referencia o de alta calidad.

**movie:** Película asociada con la persona mencionada en la fila.

**person:** Nombre de la persona mencionada en la fila.

**race_ethnicity_gold:** Raza o etnia de referencia o de alta calidad.

**religion_gold:** Religión de referencia o de alta calidad.

**sexual_orientation_gold:** Orientación sexual de referencia o de alta calidad.

**year_of_award_gold:** Año del premio de referencia o de alta calidad.

In [None]:
#El primer paso es descargar el archivo, guardarlo en drive y finalmente leerlo con pd.read_csv.
df = pd.read_csv("/content/drive/MyDrive/Proyecto M7/Oscars-demographics-DFE.csv", encoding='latin-1')


## Analisis de datos exploratorio (EDA)

In [None]:
# Revisamos la carga de datos, y observamos que tipo de variables tenemos (continua, discreta y categorica)
df.head(5)

Unnamed: 0,_unit_id,_golden,_unit_state,_trusted_judgments,_last_judgment_at,birthplace,birthplace:confidence,date_of_birth,date_of_birth:confidence,race_ethnicity,race_ethnicity:confidence,religion,religion:confidence,sexual_orientation,sexual_orientation:confidence,year_of_award,year_of_award:confidence,award,biourl,birthplace_gold,date_of_birth_gold,movie,person,race_ethnicity_gold,religion_gold,sexual_orientation_gold,year_of_award_gold
0,670454353,False,finalized,3,2/10/15 3:45,"Chisinau, Moldova",1.0,30-Sep-1895,1.0,White,1.0,Na,1.0,Straight,1.0,1927,1.0,Best Director,http://www.nndb.com/people/320/000043191/,,,Two Arabian Knights,Lewis Milestone,,,,
1,670454354,False,finalized,3,2/10/15 2:03,"Glasgow, Scotland",1.0,2-Feb-1886,1.0,White,1.0,Na,1.0,Straight,0.6842,1930,1.0,Best Director,http://www.nndb.com/people/626/000042500/,,,The Divine Lady,Frank Lloyd,,,,
2,670454355,False,finalized,3,2/10/15 2:05,"Chisinau, Moldova",1.0,30-Sep-1895,1.0,White,1.0,Na,1.0,Straight,1.0,1931,0.6667,Best Director,http://www.nndb.com/people/320/000043191/,,,All Quiet on the Western Front,Lewis Milestone,,,,
3,670454356,False,finalized,3,2/10/15 2:04,"Chicago, Il",1.0,23-Feb-1899,1.0,White,1.0,Na,1.0,Straight,1.0,1932,1.0,Best Director,http://www.nndb.com/people/544/000041421/,,,Skippy,Norman Taurog,,,,
4,670454357,False,finalized,3,2/10/15 1:48,"Salt Lake City, Ut",1.0,23-Apr-1894,1.0,White,1.0,Roman Catholic,1.0,Straight,1.0,1933,1.0,Best Director,http://www.nndb.com/people/292/000044160/,,,Bad Girl,Frank Borzage,,,,


In [None]:
# Vemos las dimensiones de nuestra base
df.shape

(441, 27)

In [None]:
# revisamos cuantos datos no nulos hay y el tipo de dato por columna
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 441 entries, 0 to 440
Data columns (total 27 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   _unit_id                       441 non-null    int64  
 1   _golden                        441 non-null    bool   
 2   _unit_state                    441 non-null    object 
 3   _trusted_judgments             441 non-null    int64  
 4   _last_judgment_at              416 non-null    object 
 5   birthplace                     441 non-null    object 
 6   birthplace:confidence          441 non-null    float64
 7   date_of_birth                  441 non-null    object 
 8   date_of_birth:confidence       441 non-null    float64
 9   race_ethnicity                 441 non-null    object 
 10  race_ethnicity:confidence      441 non-null    float64
 11  religion                       441 non-null    object 
 12  religion:confidence            441 non-null    flo

In [None]:
# Revisamos la completitud de nuestro dataframe
completitud = pd.DataFrame(df.isnull().sum())
completitud.reset_index(inplace = True)
completitud = completitud.rename(columns = {"index":"columna",0:"total"})
completitud["completitud"] = (1 - completitud["total"] / df.shape[0]) * 100
completitud = completitud.sort_values(by = "completitud", ascending = True)
completitud.reset_index(drop = True, inplace = True)
pd.options.display.max_rows= None
completitud

Unnamed: 0,columna,total,completitud
0,race_ethnicity_gold,439,0.453515
1,sexual_orientation_gold,438,0.680272
2,date_of_birth_gold,433,1.814059
3,birthplace_gold,432,2.040816
4,religion_gold,431,2.267574
5,year_of_award_gold,430,2.494331
6,_last_judgment_at,25,94.331066
7,person,0,100.0
8,movie,0,100.0
9,biourl,0,100.0
