# ¡Bienvenidos a la segunda semana del Mastery Data Science: Pandas!

### Objetivo de la sesión 2 semana 2: 

* Conocer las ventajas de utilizar Pandas.
* Cargar un conjunto de datos utilizando Pandas.
* Conocer y utlilizar las operaciones básicas de Pandas.
* Localizar posibles aplicaciones 



#Antes de empezar, un repaso
En la última sesión vimos como usar arreglos de Numpy.

*   ¿Cómo creas una lista en Python?
*   ¿Cómo creas un diccionario en Python?
*   ¿Qué librería sirve para crear números aleatorios?
*   ¿De qué otra forma les llamamos a las listas?
*   ¿Cuáles son las ventajas de usar NumPy?
*   ¿Cómo importar la librería de NumPy?
*   ¿Cómo se creaba un arreglo de una dimensión en Numpy?
*   ¿Cómo se creaba un arreglo de dos dimensiones en Numpy?

# 1. Introducción


## 1.1 Numpy vs Pandas

*Pandas* es un librería de Python para el análisis de datos, la cual esta construida sobre múltiples librerías, entre ellas esta NumPy. Ofrece múltiples herramientas para la exploración, limpieza y trasformación de datos, las cuales son procesos críticos al trabajar con datos en Python. 



## 1.2 Recursos externos

Al ser una herramienta tan completa, es imposible cubrir todas sus operaciones en la sesión, por ello recomendamos las siguientes fuentes 

- Documentación oficial: http://pandas.pydata.org/pandas-docs/stable/
- *Python for Data Analysis* por *Wes McKinney*
- *Python Data Science Handbook* por Jake VanderPlas



## 1.3 Antes de empezar

### 1.3.1 ¿Cómo importar *pandas*? 

Podemos hacerlo de la manera tradicional y es comunmnete renombrada como *pd*

In [0]:
import pandas as pd

#Carguemos tambien Numpy para realizar ciertas operaciones
import numpy as np 

### 1.3.2 Estructuras: Series, Dataframe, Panel 

Aquí encontraremos las estructuras básicas que se útilizan en Pandas



#### Series

Es un arreglo unidimensional capaz que puede conter cualquier tipo de datos y poseen una etiqueta para identificación

In [0]:
# Creemos nuestra primera Serie desde un arreglo de Numpy
s = pd.Series(np.random.randn(5))
s

0   -1.319935
1    0.551124
2   -0.884899
3    0.557154
4    1.261286
dtype: float64

In [0]:
# Podemos indicar la etiqueda(índice) de nuestros datos 
s = pd.Series(np.random.randn(5), index=['a','b','c','d','e'])
s

a   -0.376237
b   -0.341661
c   -1.244833
d    0.303086
e    1.238952
dtype: float64

In [0]:
pesos = []
for i in range(1,4):
  print("Dame el peso de la persona %s"% i)
  pesos.append(int(input()))
familia = pd.Series(np.array(pesos) ,index=['Adriana', "Gustavo", "Fabiola"])
familia

Dame el peso de la persona 1
30
Dame el peso de la persona 2
40
Dame el peso de la persona 3
0


Adriana    30
Gustavo    40
Fabiola     0
dtype: int64

In [0]:
 # Y tambien podemos crearla desde un diccionario 
  d = {'b': 1, 'a': 0, 'c': 2}
  s2=pd.Series(d)
  
  # ¡Toma las llaves como los índices!
  s2

b    1
a    0
c    2
dtype: int64

In [0]:
# Operan muy similiarmente a los arreglos de Numpy

#Funcionan como un arreglo 
print(s2[2]*10)
print()

# Pero tambien funcionan como diccionario
print(s2['c']*10)
print()

# En este caso nos devuelve también el índice
print(s2[:2]*10) 
print()

# Y podemos usarlas como vectores para operaciones 
print(np.exp(s2))

20

20

b    10
a     0
dtype: int64

b    2.718282
a    1.000000
c    7.389056
dtype: float64


In [0]:
s2

b    1
a    0
c    2
dtype: int64

#####Reto:  Crear una serie con pandas.

#### Dataframes 

Es un arreglo de columnas, puede ser visto como un conjunto series: ahora tenemos índices y columnas



In [0]:
# Creacion desde un diccionario de series 
d = {
    'Uno': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
    'Dos': pd.Series([1, 2, 3, 4.], index=['a', 'b', 'c', 'd'])
}

pd.DataFrame(d)

Unnamed: 0,Uno,Dos
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [0]:
# Creado entradas de indices y columnas, las cuales se llena como NaN (Not A Number)
pd.DataFrame(d,index=['a','b','f'], columns=['Uno','Dos','Tres'])

Unnamed: 0,Uno,Dos,Tres
a,1.0,1.0,
b,2.0,2.0,
f,,,


# 2. Uso básico de Pandas

A continucación realizaremos algunas operaciones básicas y útiles para usar en nuestra siguiente sección

In [0]:
# Consideremos la creación de un dataframe desde un diccionario

D={
    'A':pd.Series([100,200,300,400], index=['a','b','c','d']),
    'B':pd.Series([111,222,444],index=['a','b','d'])
}

df=pd.DataFrame(D)
df

Unnamed: 0,A,B
a,100,111.0
b,200,222.0
c,300,
d,400,444.0


In [0]:
# Obtengamos los índices del dataframe
df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [0]:
# Obtengamos las columnas 
df.columns


Index(['A', 'B'], dtype='object')

In [0]:
# Seleccionemos una columna 
df['A']

a    100
b    200
c    300
d    400
Name: A, dtype: int64

In [0]:
df

Unnamed: 0,A,B,C,D,E
a,100,111.0,False,11100.0,0
b,200,222.0,True,44400.0,200
c,300,,False,,0
d,400,444.0,True,177600.0,400


In [0]:
# Creando columnas mediante la operación de columnas 
df['C'] = df['A'] % 200 == 0 
df['D']=df['A']*df['B']
df['E']=df['A']*df['C']
df

Unnamed: 0,A,B,C,D,E
a,100,111.0,False,11100.0,0
b,200,222.0,True,44400.0,200
c,300,,False,,0
d,400,444.0,True,177600.0,400


In [0]:
# Borrando columnas de manera rápida 
#del df['C']
#df

In [0]:
df = df.drop(['a','b'])
df

Unnamed: 0,A,B,D,E
c,300,,,0
d,400,444.0,177600.0,400


In [0]:
# Podemos traer la una fila mediante su posición 
pd.DataFrame(df.iloc[0])

Unnamed: 0,c
A,300.0
B,
D,
E,0.0


In [0]:
# O mediante su índice 
pd.DataFrame(df.loc['c'])

Unnamed: 0,c
A,300.0
B,
D,
E,0.0


# 3. Ejercicios 


**Ejercicio 1: ** Películas https://bit.ly/2L2AvyZ

Archivos: https://bit.ly/2ZyEI0h


## 3.1 Archivo *movies*

### 1. Crear el dataframe

### Nota utiliza los siguientes pasos, únicamente si estás ejecutando tu archivo desde Colaboratory. Si lo estás cargando en tu máquina local utiliza otro método

In [1]:
# Install the PyDrive wrapper & import libraries.
# This only needs to be done once per notebook.
!pip install -U -q PyDrive
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

[?25l[K     |▎                               | 10kB 17.9MB/s eta 0:00:01[K     |▋                               | 20kB 3.3MB/s eta 0:00:01[K     |█                               | 30kB 4.8MB/s eta 0:00:01[K     |█▎                              | 40kB 3.0MB/s eta 0:00:01[K     |█▋                              | 51kB 3.7MB/s eta 0:00:01[K     |██                              | 61kB 4.4MB/s eta 0:00:01[K     |██▎                             | 71kB 5.1MB/s eta 0:00:01[K     |██▋                             | 81kB 5.6MB/s eta 0:00:01[K     |███                             | 92kB 6.2MB/s eta 0:00:01[K     |███▎                            | 102kB 4.9MB/s eta 0:00:01[K     |███▋                            | 112kB 4.9MB/s eta 0:00:01[K     |████                            | 122kB 4.9MB/s eta 0:00:01[K     |████▎                           | 133kB 4.9MB/s eta 0:00:01[K     |████▋                           | 143kB 4.9MB/s eta 0:00:01[K     |█████                     

In [0]:
# Authenticate and create the PyDrive client.
# This only needs to be done once per notebook.
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

In [0]:
# Download a zip file based on its file ID.
#
# A file ID looks like: 1tDF08XYh1HnRDcY2dJxvP5ab14Q8L_9i
# https://drive.google.com/open?id=1tDF08XYh1HnRDcY2dJxvP5ab14Q8L_9i
file_id = '1tDF08XYh1HnRDcY2dJxvP5ab14Q8L_9i' # Get sharable link from file in Google Drive
downloaded = drive.CreateFile({'id': file_id})
downloaded.GetContentFile(downloaded['title'])


In [9]:
ls

adc.json  movies.csv  ratings.csv  [0m[01;34msample_data[0m/


In [0]:
movies = pd.read_csv('movies.csv')
print(type(movies))

<class 'pandas.core.frame.DataFrame'>


In [0]:
!head movies.csv

movieId,title,genres
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance
5,Father of the Bride Part II (1995),Comedy
6,Heat (1995),Action|Crime|Thriller
7,Sabrina (1995),Comedy|Romance
8,Tom and Huck (1995),Adventure|Children
9,Sudden Death (1995),Action


In [0]:
movies.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


###  2. ¿Conocemos los datos?

#### Columnas

In [0]:
movies.columns

Index(['movieId', 'title', 'genres'], dtype='object')

#### Tamaño

In [0]:
movies.shape

(9742, 3)

In [0]:
len(movies)

9742

In [0]:
!wc -l movies.csv

9743 movies.csv


In [0]:
movies.size

29226

#### Tipos de datos

In [0]:
movies.dtypes

movieId     int64
title      object
genres     object
dtype: object

###  3. Renombrar las columnas ID, Titulo, Genero

###  4. ¿Hay Valores nulos (NaN) en las columnas?

###  5. Regresa algunas secciones
    - Segunda Columna ¿Acaso los valores son únicos?
    - Registro número 40

## 2. Archivo ratings

1. ¿Conocemos los datos? 
    - ¿Entendemos todos?

2. Obtengamos los estadísticos básicos de las calificaciones 

3. Cambiemos la escala de las calificaciones de un máximo de 5 a 100

4. ¿Cuántas calificaciones tiene cada película? ¿Cuál es la calificación media de cada uno? 
    Nota: agrupen las calificaciones y cuenten las clasificaciones 

5. ¿cuáles son las películas son las 20 mejores  y peores según las calificaciones? ¿Cuáles son las más calificadas? 

3. Pongamonos serios:

1. La columna de genero en el DataFrame tiene divisiones, ¿podemos poner cada genero en una columna? 
2. Concatena las nuevas columnas y quita la columna vieja
