# Introducción

Este proyecto analiza datos de la aplicación de citas online OKCupid. En los últimos años, ha habido un crecimiento masivo en el uso de aplicaciones de citas para encontrar el amor. Muchas de estas apps usan técnicas sofisticadas de ciencia de datos para recomendar posibles coincidencias a los usuarios y para optimizar la experiencia del usuario. Estas apps nos dan acceso a una gran cantidad de información, que nunca habiamos tenido antes, sobre como personas diferentes experimentan el romance.

El objetivo de este proyecto es desarrollar, preparar, analizar y crear un sistema de aprendizaje automático para resolver unas preguntas.


**Recursos de datos:**

Codecademy.com nos proporcionó el archivo de datos `profiles.csv`.

## Desarrollo

Es beneficioso el crear un proyecto de desarrollo si estamos empezando un nuevo proyecto. Abajo están las cuatro secciones para servirnos de guía de ayuda en el proceso y progreso del proyecto. La primera sección es los objetivos del proyecto, una sección para definir los objetivos de alto nivel e introducir las intenciones de este proyecto. La siguiente sección es los datos, afortunadamente en este proyecto, los datos ya están provistos pero todavía necesita ser comprobado si los objetivos del proyecto pueden ser alcanzados con los datos disponibles. En tercer lugar, habrá que pensar en el análisis, el cuál incluye los métodos y la alineación de las preguntas con los objetivos del proyecto. Por último, la evaluación ayudará a extraer conclusiones y hallazgos del análisis.  

### Objetivos del Proyecto

En este proyecto, el objetivo es utilizar las habilidades aprendidas a través de Codecademy y aplicar las técnicas de aprendizaje automático a un conjunto de datos. La principal pregunta de investigación que responderemos es si los signos astrológicos de los usuarios de OkCupid se pueden predecir utilizando otras variables de sus perfiles. Este proyecto es importante puesto que muchos usuarios encuentran los signos astrológicos una parte importante de coincidencia, y si los usuarios no introducen sus signos, a OKCupid le gustaría predecir que signo podrían ser.

### Análisis

Esta solución usará estadísticas descriptivas y visualización de datos para encontrar las claves en el entendimiento de la distribución, conteo, y relaciones entre variables. Puesto que los objetivos del proyecto hacen predicciones sobre los signos astrológicos de los usuarios, implementaremos los algoritmos de clasificación de la familia de aprendizaje supervisado de los sistemas de aprendizaje autónomo.

### Evaluación

El proyecto concluirá con la evaluación de los sistemas de aprendizaje autónomo seleccionados con un conjunto de datos de validación. La salida de las predicciones puede ser comprobada a través de una matriz de confusión, y metricas tales como la exactitud, la precisión, la rellamada, el F1 y la puntuación de Kappa.

## Importar los Módulos de Python

Primero importaremos los módulos que serán usados para este proyecto:

In [1]:
## Librerias generales
import numpy as np
import pandas as pd

from matplotlib import pyplot as plt
import seaborn as sns

plt.rcParams['figure.figsize'] = [6, 6]
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

## Carga de Datos

Para analizar los perfiles de los usuarios desde OKCupid, usaremos pandas para cargar el conjunto de datos en un `DataFrame` para que pueda ser explorado y visualizado con Python.

Aquí cargamos `profiles.csv` en un `DataFrame` llamado `perfiles`. Entonces, examinaremos brevemente el `DataFrame` usando las funciones `.head()` y `.info()` para comprobar su contenido.

In [2]:
perfiles = pd.read_csv('profiles.csv', encoding='utf-8')
perfiles.head()

Unnamed: 0,age,body_type,diet,drinks,drugs,education,essay0,essay1,essay2,essay3,...,location,offspring,orientation,pets,religion,sex,sign,smokes,speaks,status
0,22,a little extra,strictly anything,socially,never,working on college/university,about me:<br />\n<br />\ni would love to think...,currently working as an international agent fo...,making people laugh.<br />\nranting about a go...,"the way i look. i am a six foot half asian, ha...",...,"south san francisco, california","doesn&rsquo;t have kids, but might want them",straight,likes dogs and likes cats,agnosticism and very serious about it,m,gemini,sometimes,english,single
1,35,average,mostly other,often,sometimes,working on space camp,i am a chef: this is what that means.<br />\n1...,dedicating everyday to being an unbelievable b...,being silly. having ridiculous amonts of fun w...,,...,"oakland, california","doesn&rsquo;t have kids, but might want them",straight,likes dogs and likes cats,agnosticism but not too serious about it,m,cancer,no,"english (fluently), spanish (poorly), french (...",single
2,38,thin,anything,socially,,graduated from masters program,"i'm not ashamed of much, but writing public te...","i make nerdy software for musicians, artists, ...",improvising in different contexts. alternating...,my large jaw and large glasses are the physica...,...,"san francisco, california",,straight,has cats,,m,pisces but it doesn&rsquo;t matter,no,"english, french, c++",available
3,23,thin,vegetarian,socially,,working on college/university,i work in a library and go to school. . .,reading things written by old dead people,playing synthesizers and organizing books acco...,socially awkward but i do my best,...,"berkeley, california",doesn&rsquo;t want kids,straight,likes cats,,m,pisces,no,"english, german (poorly)",single
4,29,athletic,,socially,never,graduated from college/university,hey how's it going? currently vague on the pro...,work work work work + play,creating imagery to look at:<br />\nhttp://bag...,i smile a lot and my inquisitive nature,...,"san francisco, california",,straight,likes dogs and likes cats,,m,aquarius,no,english,single


In [3]:
perfiles.last_online.head()

0    2012-06-28-20-30
1    2012-06-29-21-41
2    2012-06-27-09-10
3    2012-06-28-14-22
4    2012-06-27-21-26
Name: last_online, dtype: object

In [4]:
perfiles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59946 entries, 0 to 59945
Data columns (total 31 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   age          59946 non-null  int64  
 1   body_type    54650 non-null  object 
 2   diet         35551 non-null  object 
 3   drinks       56961 non-null  object 
 4   drugs        45866 non-null  object 
 5   education    53318 non-null  object 
 6   essay0       54458 non-null  object 
 7   essay1       52374 non-null  object 
 8   essay2       50308 non-null  object 
 9   essay3       48470 non-null  object 
 10  essay4       49409 non-null  object 
 11  essay5       49096 non-null  object 
 12  essay6       46175 non-null  object 
 13  essay7       47495 non-null  object 
 14  essay8       40721 non-null  object 
 15  essay9       47343 non-null  object 
 16  ethnicity    54266 non-null  object 
 17  height       59943 non-null  float64
 18  income       59946 non-null  int64  
 19  job 