
<img src="images/utfsm.png" alt="" width="200px" align="right"/>

<br/>

# Taller de Manejo y Visualización de Datos con Python
### Grouping & Apply <br/>

Felipe González P.<br/>
felipe.gonzalezp.12@sansano.usm.cl<br/>

*Agradecimientos a : https://github.com/justmarkham* 






# Dataframe

Es una estructura de datos bidimensional (lo datos se alinean de forma tabular en filas y columnas).

**Ventajas:**
* Las columnas pueden ser de distinto tipo.
* El tamaño puede ser mutable.
* Se pueden acceder a columnas y filas específicas.
* Se pueden realizar operaciones sobre filas y columnas


<img src="https://www.tutorialspoint.com/python_pandas/images/structure_table.jpg">

Un Dataframe puede ser creado a través de los siguientes input:
* List
* Dict
* Series
* Numpy ndarrays
* A partir de otro dataframe

<h1 align="center">GroupBy</h1>

### Introducción:

GroupBy puede ser resumido en un Dividir-Aplicar-Combinar (*Split-Apply-Combine*)




<div align="center"><img src="https://i.imgur.com/yjNkiwL.png?1"></div>


<div align="center"> <img src="https://www.safaribooksonline.com/library/view/learning-pandas/9781783985128/graphics/5128OS_09_01.jpg"></img></div>

# Patrón: Split - Apply - Combine

* Un dataset es dividido en pequeñas partes
* Cada una de esas piezas es operada/analizada independientemente
* Todos los resultados son combinados al final. 

*Este patrón es similar a  MapReduce (modelo de programación para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras y al commodity computing.) *

<h1 align="center"> Consumo de alcohol por continente </h1>

### Importar Librería necesaria

In [None]:
import pandas as pd
import matplotlib
%matplotlib inline

### Descargar dataset desde [url](https://raw.githubusercontent.com/justmarkham/DAT8/master/data/drinks.csv). 

### Guardar datos en una variable

In [None]:
drinks = pd.read_csv('https://raw.githubusercontent.com/justmarkham/DAT8/master/data/drinks.csv')
drinks.head()  #asume n igual a 5 en caso de no agregar un valor

### ¿Qué continente bebe más cerveza en promedio? ¿Cuál bebe menos?

In [None]:
drinks.groupby('continent').beer_servings.mean()

###  Imprimir las estadísticas de consumo de vino por cada continente

In [None]:
drinks.groupby('continent').wine_servings.describe()


In [None]:
drinks.groupby('continent').wine_servings.describe().boxplot()


### ¿Cuál es el promedio de consumo por cada columna en cada continente?

In [None]:
drinks.groupby('continent').mean()

### ¿Cuál es la mediana de consumo por cada columna en cada continente?


In [None]:
drinks.groupby('continent').median()

### Imprimir el promedio, mínimo y máximo con respecto al consumo de *spirit* agrupado por continente

In [None]:
drinks.groupby('continent').spirit_servings.agg(['mean', 'min', 'max']) #llama a la funcion mean, min, max


<h1 align="center">Apply</h1>

<h1 align="center"> Consumo de alcohol en estudiantes </h1>

### Los datos necesarios están aqui: [url](https://github.com/guipsamora/pandas_exercises/blob/master/04_Apply/Students_Alcohol_Consumption/student-mat.csv).

### Lo guardaremos como siempre en una variable

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/guipsamora/pandas_exercises/master/04_Apply/Students_Alcohol_Consumption/student-mat.csv', sep = ',')
df.head()

### ¡Son muchas columnas! Solo queremos las que están dentro del rango [school,guardian]

In [None]:
stud_alcoh = df.loc[: , "school":"guardian"] # es para seleccionar. df.loc[row_indexer,column_indexer]
stud_alcoh.head()

### Creemos una función que ponga en mayúscula ciertas palabras

In [None]:
captalizer = lambda x: x.upper()

### Pongamos en mayúsculas Mjob y Fjob

In [None]:
stud_alcoh['Mjob'].apply(captalizer)
stud_alcoh['Fjob'].apply(captalizer)

### ¿Cuáles son los últimos 5 elementos del dataset?

In [None]:
stud_alcoh.tail() #Por defecto n = 5

### ¡El dataset original aún tiene en minúsculas Mjob y Fjob!

In [None]:
stud_alcoh['Mjob'] = stud_alcoh['Mjob'].apply(captalizer)
stud_alcoh['Fjob'] = stud_alcoh['Fjob'].apply(captalizer)
stud_alcoh.tail()

### Creemos una nueva columna que muestre 'true' en el caso de que el individuo sea un *legal_drinker*

In [None]:
def majority(x):
    if x > 17:
        return True
    else:
        return False

In [None]:
stud_alcoh['legal_drinker'] = stud_alcoh['age'].apply(majority)
stud_alcoh.head()

### Multipliquemos cada número del dataset por 10
<div align="center"><img src="http://www.gamer.ru/system/attached_images/images/000/498/347/original/but-why-meme-generator-but-why-84103d.jpg"> </div>

In [None]:
import numpy 
def times10(x):
    if type(x) is long:
        return 10*x
    else:
        return x


In [None]:
stud_alcoh.applymap(times10).head(10)
#Applymap: Apply a function to a DataFrame that is intended to operate elementwise, 
#i.e. like doing map(func, series) for each series in the DataFrame

<h1 align="center">Ejercicios</h1>

### Ocupar los datos de: [url](https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user) y guardarlos en una variable. 

### Muestra las primeros 5 filas del dataset

### ¿Cuál es la media de edad por ocupación?

### Descubre la proporción de hombres por ocupación y ordenalos de mayor a menor

### Por cada ocupación calcula el mínimo y máximo valor

### Por cada combinación "ocupación-genero" calcula el promedio de la edad

### Por cada ocupación muestra el porcentaje de hombres y mujeres

# Consumo de alcohol en estudiantes

### Los datos son los siguientes

In [1]:
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'], 
        'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'], 
        'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'], 
        'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
        'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}

### Convierte el diccionario en un dataframe

### ¿Cual es el promedio de el preTestScore del regimiento Nighthawks?

### Muestra estadíticas generales por compañia

### ¿Cual es el promedio para cada compañía en el preTestScore?


### Mostrar el promedio en el preTestScore segun regiment y company


### Agrupar todo el dataframe por regimiento y compañía, de tal forma que se vea esto:
<img src="grouping.png"></img>


### ¿Cuál es el número de observaciones en cada regimiento y compañía?

### Itera sobre cada regimiento de tal forma que puedas imprimir por pantalla toda su información:

<img src="grouping2.png"></img>