<h1 align="center">INF280 - Laboratorio de Estadística Computacional</h1>
<center>
<img src="https://activewizards.com/assets/components/phpthumbof/cache/main-image-python-site1422.5f5b0ce8fcd426270dff2a32a4bf5946.png" width="60%"></img>
<h2 align="center">LEC 1: Análisis Exploratorio de Datos</h2>

<i> Notebook creado por Sebastián Bórquez G. - <a href="mailto://sebastian.borquez.g@gmail.com">sebastian.borquez.g@gmail.com</a> - DI UTFSM - Septiembre 2019.</i>
</center>



# Objetivo

Aprender a utilizar herramientas y técnicas básicas para el análisis exploratorio de datos, de acuerdo a patrones y regularidades existentes en diversos fenómenos aleatorios.

## Instrucciones

* Los informes deben ser desarrollados en parejas definidas al comienzo del semestre. Cualquier cambio debe ser informado previamente al ayudante para su autorización.
* El informe consiste en el desarrollo de este notebook. Completando código donde sea indicado y respondiendo las preguntas planteadas.
* Debe argumentar sus respuestas basándose en los resultados obtenidos en sus experimentos. De no ser así, no podrán optar al puntaje máximo de la pregunta.
* Los gráficos deben ser legibles y fáciles de entender. Esto es utilizar el gráfico adecuado al problema; usar escalas correctas; incluir títulos, nombres de ejes y leyenda.
* El código debe ser legible, comente de manera adecuada y evite la modularización (_simple is better than complex - [The Zen of Python](https://www.python.org/dev/peps/pep-0020/#id3)_)
* Cualquier consulta o queja debe realizarse a través de la plataforma Moodle.
* La fecha de entrega es el **Domingo 27 de Octubre a las 23:55**.
* El formato de entrega es **GrupoXX_LECN.ipynb**, donde _XX_ es grupo asignado y _N_ el LEC correspondiente. (i.e Grupo03_LEC1.ipynb) 
* Por cada día de atraso se descuentan 10 puntos de la nota máxima a alcanzar.
* Los trabajos que sean resultado de copia o plagio de otros trabajos, serán automáticamente evaluados con nota 0.

## Aprendizaje Esperado

Los y las estudiantes deben ser capaces de:

* Utilizar las herramientas básicas de carga, exploración y visualización básicas disponibles en los softwares estadísticos (Python o R-Project).

* Ser capaces de identificar los diferentes tipos de datos, e identificar gráficos y métodos adecuados para su estudio.

* Ser capaces de realizar un análisis comparativos entre gráficos y datos obteniendo conclusiones que se infieren de este mismo análisis.

## Actividad

Lea las siguientes preguntas y responda de manera clara y precisa. Algunas de estas requieren de completar o implementar funciones, no edite funciones si no se les indica. 

El puntaje máximo es de 100, cada pregunta indica su puntaje asignado.

### Información del Grupo





| Rol| Nombre | Correo |
| ---------- | ---------- | ---------- |
| COMPLETAR  | COMPLETAR   | COMPLETAR |
| COMPLETAR   | COMPLETAR  | COMPLETAR |


## The Complete Pokemon Dataset

<center>
<img src="https://storage.googleapis.com/kaggle-datasets-images/635/1204/126be74882028aac7241553cef0e27a7/dataset-cover.jpg" width="100%"></img>
</center>

[The Complete Pokemon Dataset](https://www.kaggle.com/rounakbanik/pokemon) es un conjunto de datos disponible en la plataforma [Kaggle](https://www.kaggle.com/). Este conjunto de datos (_dataset_) contiene información sobre _Pokemons_ disponibles hasta la séptima generación.

Esta información abarca desde los nombres, generación, tipos y stats de los diferentes _Pokemons_, la cual utilizaremos para analizar a las diferentes generaciones de pokemons.


In [0]:
# DataFrames
import pandas as pd

# Arreglos multidimensionales
import numpy as np

# Modulos para visualizaciones
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()

from IPython.display import display, HTML

dataset = "https://labcomp.cl/~sborquez/datasets/pokemon/pokemon.csv"

columns = ['pokedex_number', 'name', 'type1', 'type2', 'classfication', 'generation', 'is_legendary',
           'height_m', 'weight_kg', 'capture_rate', 'base_egg_steps', 'base_happiness',
           'attack','defense', 'experience_growth', 'hp',
           'sp_attack', 'sp_defense', 'speed']

pokedata = pd.read_csv(dataset)[columns]
pokedata.type2.fillna(value='None', inplace=True)
pokedata.is_legendary = pokedata.is_legendary.astype(bool)

### Exploración inicial

Ahora que ya hemos cargado el dataset en un dataframe llamado `pokedata` revisemos cual es su contenido.

Para esto contesten las siguientes preguntas:


* (<font color='red'>5 Puntos</font>) ¿Cuántos Pokemons contiene en el datasets? Muestre los primeros 5 y últimos 5 pokemones. 

In [0]:
pokedata[["height_m", "weight_kg"]].describe()

Unnamed: 0,height_m,weight_kg
count,781.0,781.0
mean,1.163892,61.378105
std,1.080326,109.354766
min,0.1,0.1
25%,0.6,9.0
50%,1.0,27.3
75%,1.5,64.8
max,14.5,999.9


In [0]:
# COMPLETAR ...
total = ...
print(f"Hay {total} Pokemons")

print("Primeros 5")
display(...)

print("Últimos 5")
display(...)

* (<font color='red'>8 Puntos</font>) ¿Cuántas y cuáles son la columnas del dataset y qué tipo de dato son `(dtype)`?    Luego, por cada columna exceptuando _name_ y _pokedex_number_, indique su escala de medición (Nominal, Ordinal, Intervalos, Razón).




In [0]:
# COMPLETAR
display(...)

**Escalas de Medición**



<font color="greed"> COMPLETAR </font> 
1. __type1__: ...
2. __type2__: ...
3. __classfication__: ...
4. ...


* (<font color='red'>6 Puntos</font>) Para las columnas con datos __categóricos__ (excepto _name_ y _pokedex_number_) indique los valores posibles y cuántas instancias existen por cada valor.

__Nota__: algunas columnas poseen muchos valores diferentes, no se moleste en mostrarlos todos.



In [0]:
# COMPLETAR ...

categoricos = ...

for cat in categoricos:
  display(HTML(f"<h4>Columna: {cat}</h4>"))
  col = pokedata.get(cat)

  valores = ...
  diferentes = ...
  
  print(f"Diferentes: {diferentes}")
  print(valores)


* (<font color='red'>6 Puntos</font>) Para las columnas con datos __numéricos__ (excepto _pokedex_number_ y _generation_) realice una descripción de los valores (media, desviación estandar, mínimo, máximo y cuartiles)




In [0]:
# COMPLETAR ...

numericos = []

#display(pokedata.describe())
display(pokedata.describe())
"asdasd"


Unnamed: 0,pokedex_number,generation,height_m,weight_kg,base_egg_steps,base_happiness,attack,defense,experience_growth,hp,sp_attack,sp_defense,speed
count,801.0,801.0,781.0,781.0,801.0,801.0,801.0,801.0,801.0,801.0,801.0,801.0,801.0
mean,401.0,3.690387,1.163892,61.378105,7191.011236,65.362047,77.857678,73.008739,1054996.0,68.958801,71.305868,70.911361,66.334582
std,231.373075,1.93042,1.080326,109.354766,6558.220422,19.598948,32.15882,30.769159,160255.8,26.576015,32.353826,27.942501,28.907662
min,1.0,1.0,0.1,0.1,1280.0,0.0,5.0,5.0,600000.0,1.0,10.0,20.0,5.0
25%,201.0,2.0,0.6,9.0,5120.0,70.0,55.0,50.0,1000000.0,50.0,45.0,50.0,45.0
50%,401.0,4.0,1.0,27.3,5120.0,70.0,75.0,70.0,1000000.0,65.0,65.0,66.0,65.0
75%,601.0,5.0,1.5,64.8,6400.0,70.0,100.0,90.0,1059860.0,80.0,91.0,90.0,85.0
max,801.0,7.0,14.5,999.9,30720.0,140.0,185.0,230.0,1640000.0,255.0,194.0,230.0,180.0


'asdasd'

### Visualizaciones

Una vez ya nos hemos familiarizado con la estructura de nuestros datos, podemos comenzar a hacernos preguntas y responderlas utilizando técnicas de visualización.

En la siguiente sección se pide responder las preguntas y argumentar con los gráficos correspondiente a los datos. Recuerde que los gráficos deben ser legibles y fáciles de entender. 


* (<font color='red'>12 Puntos</font>) ¿Cómo se distribuye la cantidad de Pokemons a través de las diferentes generaciones? ¿Existe alguna tendencia? ¿Cuáles son las generaciones con la mayor y la menor cantidad de Pokemons?.


In [0]:
# COMPLETAR ...

sns....

plt.show();

**Respuestas**


<font color="greed"> COMPLETAR </font> 

Los Pokemons Legendarios son un grupo bastante raro y comunmente muy poderoso de Pokemons, generalmente son los protagonista de los diferentes mitos y legendas del mundo de Pokemon. Pero ¿qué tan raro son?

* <font color="red">(8 puntos) </font> ¿Cuál es la fracción de Pokemons Legendarios y No legendarios? 


In [0]:
# COMPlETAR ...
# Grafico
...
plt.show()

**Respuesta**

<font color="greed"> COMPLETAR </font> 

* <font color="red">(12 puntos) </font> ¿Cuál es la cantidad o fracción de Pokemons Legendarios y No legendarios por generación? (use solo un gráfico)


In [0]:
# COMPlETAR ...
# Grafico
...
plt.show()

**Respuesta**

<font color="greed"> COMPLETAR </font> 

Otro punto interesante para el análisis es la distribución de `types`.

* <font color="red">(8 puntos) </font> ¿Cuáles son los `type1` más frecuentes? ¿Cuáles son los  `type2` más frecuentes?


__Nota:__ Se recomienda ordenar los gráficos de mayor a menor frecuencia.

In [0]:
# COMPlETAR ...
# Grafico de type1
...
plt.show()

# Grafico de type2
...
plt.show()

**Respuesta**

<font color="greed"> COMPLETAR </font> 


* <font color="red">(6 puntos) </font> Vimos cuales son los tipos de Pokemones más y menos frecuentes, sería interesante también ver cuales son las combinaciones de tipos.


  Para esto se recomienda utilizar un gráfico de dos dimensiones (i.e. heatmap).

  ¿Cuáles son las 5 combinaciones más comunes?


__Nota__: NO tomar en cuenta los Pokemones sin un tipo secundario (type2 == 'None')

__Nota 2__: Quizás los métodos `.groupby([]) .size() .unstack()` le serán útiles.

In [0]:
# COMPlETAR ...

plt.subplots(figsize=(10, 10))

sns.heatmap(
    ...
    linewidths=1,
    annot=True,
    cmap="Blues"
)

plt.xticks(rotation=35)
plt.show()

**Respuesta**

<font color="greed"> COMPLETAR </font> 

* <font color="red">(15 puntos) </font> Analíce el siguiente código. ¿Qué hace la función `pairplot`? ¿Qué concluisiones puede obtener del gráfico generado?



In [0]:
corcolumns = ['height_m', 'weight_kg','attack','defense', 'hp', 'speed']

sns.pairplot(pokedata, hue='is_legendary',  diag_kind="kde", vars=corcolumns)

**Respuesta**

<font color="greed"> COMPLETAR </font> 



* <font color="red">(14 puntos) </font> Finalmente, es su turno de analizar los datos y encontrar algún patrón o fenómeno. Genere __dos gráficos__ que permitan concluir alguna hipótesis sobre los datos.

  Cada gráfico debe estar acompañada con las conclusiones que se pueden obtener de este. 

  Pueden inspirarse de esta [galería](httpspython-graph-gallery.com/), intente no utilizar los gráficos vistos en las preguntas anteriores.



In [0]:
# Grafico 1


**Respuesta**

<font color="greed"> COMPLETAR </font> 

In [0]:
# Grafico 2


**Respuesta**

<font color="greed"> COMPLETAR </font> 


Felicidades! han completado el primer Laboratorio de Estadística Computacional (LEC)

Recuerden contestar todas las preguntas y llenar la tabla con la información de su grupo.