# Eleccion de Datasets potenciales

## Consigna


- Identificar 3 datasets que cumplan con las siguientes condiciones: 
        a) al menos 2000 filas. 
        b) al menos 15 columnas.


- Describir las variables potencialmente interesantes en cada archivo teniendo en cuenta el contexto comercial y analítico involucrado

- Cargar los archivos correspondientes por medio de la librería pandas

## Introduccion

Para esta primera entrega se han buscado varios datasets distintos y acabado por elegir los más interesantes de ellos.
Se han elegido: un Dataset sobre Blackjack (el famoso juego de cartas de casino), otro sobre todos los exoplanetas conocidos actualmente y el ultimo de ellos sobre que hace bueno a un jugador de Starcraft II (un videojuego de estrategia en tiempo real).

Debido a que los Dataframes con los que vamos a trabajar son demasiado grandes no se los mostrara directamente, sino que se opto por hacer un breve analisis de cada uno de ellos.

# Primer Dataset - Blackjack

## Introduccion

Este Dataset ha sido obtenido de la plataforma Kaggle, la descripcion que se tiene es la seguiente

![Screenshot_1.png](attachment:Screenshot_1.png)

![Screenshot_1.png](attachment:Screenshot_1.png)

![Screenshot_1.png](attachment:Screenshot_1.png)

### Acknowledgements

The player in this dataset played according to Basic Strategy which can be found here: https://wizardofodds.com/games/blackjack/strategy/4-decks/

## Analisis

Primero que nada se importa pandas y el archivo csv para comenzar a trabajar con el.

In [25]:
import pandas as pd

In [13]:
data_blackjack = pd.read_csv(r'C:\Users\Gaspar\Desktop\DataScience\blackjack_simulator.csv', delimiter= ",")

Ahora se veran las columnas y que representa cada una de ellas:



- shoe_id (Es el id del mazo)
- cards_remaining (La cantidad de cartas que quedan en el mazo al iniciar la ronda)
- dealer_up (Valor de la carta inicial del dealer)
- initial_hand (Los valores de nuestra mano inicial)
- dealer_final (La mano final del dealer)
- dealer_final_value (El valor final de la mano del dealer)
- player_final (Nuestras cartas al final de la ronda)
- player_final_value (El valor de nuestra mano al final de la ronda)
- actions_taken (Las decisiones que tomamos durante la ronda)
- run_count (Hi-Lo run count al comienzo de la ronda)
- true_count (Hi-Lo true count al cominenzo de la ronda)
- win (Cantidad ganada/perdida al final de la ronda)

A continuacion se muestran cuantas filas y columnas tiene el Dataset, para ello se ha utilizando el metodo Shape, el cual devuelve un array con tantos elementos como dimensiones tiene nuestro dataframe. 

In [8]:
data_blackjack.shape

(50000000, 12)

Como se observa el Dataframe tiene 2 dimensiones y consta de 50.000.000 filas y 12 columnas.
Otra cosa que se puede analizar es si el Dataframe esta completo o tiene valores faltantes.

In [9]:
data_blackjack.isnull().sum()

shoe_id               0
cards_remaining       0
dealer_up             0
initial_hand          0
dealer_final          0
dealer_final_value    0
player_final          0
player_final_value    0
actions_taken         0
run_count             0
true_count            0
win                   0
dtype: int64

Afortunadamente el Dataset esta completo. Ahora se vera que tipo de dato contiene cada una de las columnas.

In [14]:
data_blackjack.dtypes

shoe_id                 int64
cards_remaining         int64
dealer_up               int64
initial_hand           object
dealer_final           object
dealer_final_value     object
player_final           object
player_final_value     object
actions_taken          object
run_count               int64
true_count              int64
win                   float64
dtype: object

## Conclusion Primer Dataset - Blackjack

En conclusion de este Dataset se puede ver que tiene una inmensa cantidad de filas lo que realentiza cualquier operación que se intente aplicar, por otro lado tiene pocas columnas teniendo en cuenta que la actividad requeria 15 como minimo.
En caso de seleccionar este Dataset para el proyecto se intentaria analizar que jugada es la mejor teniendo en cuenta la mano propia y la del dealer para obtener la mayor ganancia posible (o la menor perdida).

# Segundo Dataset -  Exoplanetas

La pagina de donde se extrajo el Dataset nos informa el nombre de las columnas y a que hace referencia cada una de ellas

This file was produced by the NASA Exoplanet Archive  http://exoplanetarchive.ipac.caltech.edu
Thu Dec  1 08:00:04 2022

- COLUMN pl_name:        Planet Name
- COLUMN hostname:       Host Name
- COLUMN sy_snum:        Number of Stars
- COLUMN sy_pnum:        Number of Planets
- COLUMN discoverymethod: Discovery Method
- COLUMN pl_rade:        Planet Radius [Earth Radius]
- COLUMN pl_bmasse:      Planet Mass or Mass*sin(i) [Earth Mass]
- COLUMN pl_orbeccen:    Eccentricity
- COLUMN pl_eqt:         Equilibrium Temperature [K]
- COLUMN st_spectype:    Spectral Type
- COLUMN st_teff:        Stellar Effective Temperature [K]
- COLUMN st_rad:         Stellar Radius [Solar Radius]
- COLUMN st_mass:        Stellar Mass [Solar mass]
- COLUMN st_metratio:    Stellar Metallicity Ratio
- COLUMN st_logg:        Stellar Surface Gravity [log10(cm/s**2)]

Comenzando con el analisis importamos pandas y el archivo csv que contiene los datos

In [10]:
import pandas as pd

data_exoplanets = pd.read_csv(r'C:\Users\Gaspar\Desktop\DataScience\exoplanets.csv', delimiter = ",")

En este caso ya se vio el nombre de cada columna con lo que representa por lo que a continuacion se vera el tipo de dato que hay en cada columna

In [16]:
data_exoplanets.dtypes

loc_rowid            int64
pl_name             object
hostname            object
sy_snum              int64
sy_pnum              int64
discoverymethod     object
pl_rade            float64
pl_bmasse          float64
pl_orbeccen        float64
pl_eqt             float64
st_spectype         object
st_teff            float64
st_rad             float64
st_mass            float64
st_metratio         object
st_logg            float64
dtype: object

Seguido a conocer los datos de cada columna se buscara cuantos registros hay en nuestro Dataset

In [17]:
data_exoplanets.shape

(5211, 16)

Tenemos 5211 registros en las 16 columnas mencionadas anteriormente. 


Ahora se vera si estas columnas estan compeletas o tienen datos faltantes

In [9]:
data_exoplanets.isnull().sum()

loc_rowid             0
pl_name               0
hostname              0
sy_snum               0
sy_pnum               0
discoverymethod       0
pl_rade              17
pl_bmasse            23
pl_orbeccen         670
pl_eqt             1346
st_spectype        3357
st_teff             149
st_rad              170
st_mass               4
st_metratio         374
st_logg             178
dtype: int64

Como se puede observar, algunas de las columnas tienen muchos datos faltantes, algo a tener en cuenta al momento de trabajar con este Dataset y que podria llevarnos a tener que elegir otro

## Conclusion Segundo Dataset - Exoplanetas

En el caso de utilizar este Dataset el objetivo seria poder predecir caracteristicas del planeta como su masa, su radio, excentricidad, etc. A partir de las caracteristicas de su estrella. A pesar de ser un Dataset muy interesante y con una cantidad de datos muy buena, tiene el problema de tener demasiados datos nullos como se ha mencionado anteriormente, por lo que puede que haya que elegir otro Dataset para trabajar.

# Tercer Dataset - Nivel de habilidad de jugadores de Starcraft II

## Introduccion

Este Dataset ha sido obtenido desde Kaggle y esta es la informacion que se brinda la descripcion del mismo

![Screenshot_1.png](attachment:Screenshot_1.png)

![Screenshot_1.png](attachment:Screenshot_1.png)

![Screenshot_1.png](attachment:Screenshot_1.png)

http://archive.ics.uci.edu/ml/datasets/SkillCraft1+Master+Table+Dataset

## Analisis 

El nombre de las columnas y su descripcion ya esta en la introduccion por lo que se prosigue con los demas atributos.
Primero se importa pandas junto con el archivo csv

In [19]:
import pandas as pd

data_skillcraft = pd.read_csv(r'C:\Users\Gaspar\Desktop\DataScience\SkillCraft.csv', delimiter = ",")

Lo primero que se verá es el tamaño de nuestro Dataset

In [20]:
data_skillcraft.shape

(3338, 20)

Este es el dataset con menos registros de los que se han presentado hasta ahora y a su vez es el que mas columnas tiene

Ahora se vera que tipo de dato contiene cada columna

In [23]:
data_skillcraft.dtypes

GameID                    int64
LeagueIndex               int64
Age                       int64
HoursPerWeek              int64
TotalHours                int64
APM                     float64
SelectByHotkeys         float64
AssignToHotkeys         float64
UniqueHotkeys             int64
MinimapAttacks          float64
MinimapRightClicks      float64
NumberOfPACs            float64
GapBetweenPACs          float64
ActionLatency           float64
ActionsInPAC            float64
TotalMapExplored          int64
WorkersMade             float64
UniqueUnitsMade           int64
ComplexUnitsMade        float64
ComplexAbilitiesUsed    float64
dtype: object

y para terminar se analizara si hay datos faltantes en alguna columna del Dataset

In [24]:
data_skillcraft.isnull().sum()

GameID                  0
LeagueIndex             0
Age                     0
HoursPerWeek            0
TotalHours              0
APM                     0
SelectByHotkeys         0
AssignToHotkeys         0
UniqueHotkeys           0
MinimapAttacks          0
MinimapRightClicks      0
NumberOfPACs            0
GapBetweenPACs          0
ActionLatency           0
ActionsInPAC            0
TotalMapExplored        0
WorkersMade             0
UniqueUnitsMade         0
ComplexUnitsMade        0
ComplexAbilitiesUsed    0
dtype: int64

Se observa que el Dataset esta completo

## Conclusion Tercer Dataset - Nivel de habilidad de jugadores de Starcraft II

Para concluir el analisis de este Dataset podemos decir que probablemente en este el objetivo sea el mas evidente de los tres, este seria analizar las acciones del jugador para intentar predecir en que division se encuentra. En este caso no se ha encontrado nada negativo, ya que, el Dataset tiene una buena cantidad tanto de registros como de columnas y estas estan completas, sin ningun dato faltante.

# Conclusion final

Para acabar con el desafio, se ve el tercer Dataset como el mas apto para trabajar debido a su numero razonable de registros (a diferencia del primero que tiene unos 50 millones) y que no tiene datos faltantes a (a diferencia del segundo que tiene columnas muy afectadas por este hecho).

A pesar de eso el Dataset que me resulta mas atractivo para trabajar es el primero, creo que como proyecto final del curso podria ser muy interesante construir un modelo de machine learning que pueda jugar al blackjack de forma completamente autonoma y de la mejor forma posible.