---
# Experto Big Data UNAV 2018 - Notebook 10 - Pandas I

---

# Series en Pandas

## Creacion de objetos Series

In [None]:
import pandas as pd # import pandas
import numpy as np # import numpy
import matplotlib.pyplot as plt # import libreria para plotear
pd.set_option('max_columns', 50) # maximo de columnas a mostrar cuando se muestra un pandas dataframe
# indica a python que plotee en el notebook
%matplotlib inline 

La _Series_ es un array unidimensional etiquetado capaz de contener cualquier tipo de datos (enteros, cadenas, números de coma flotante, objetos de Python, etc.). Las etiquetas de los ejes se denominan colectivamente como índices. En el fondo es como un array _NumPy_ pero su manejo es mucho mas intuitivo y sencillo.

Crear una estructura _Series_ desde una lista con indice por defecto que van desde _0_ hasta _n-1_ elementos. 

In [None]:
# crear una estructura Series desde una lista arbitraria
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'])
print(s)

In [None]:
print(s[0])
print(s[1])
print(s[2])
print(s[3])
print(s[4])

Crear una estructura _Series_ con indicando un indice.

In [None]:
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'],
              index=['A', 'Z', 'C', 'Y', 'E'])
print(s)

## Parametros y argumentos

A una estructura _Series_ al definirla se le pueden pasar los parametros _data_ con un array like,  y _index_ con los indices.

In [None]:
frutas = ["Manzana", "Naranja", "Ciruela", "Uva", "Fresa"]
dias = ["Lunes", "Martes", "Miercoles", "Jueves", "Viernes"]

print(pd.Series(frutas, dias))
print(10 * '-')
print(pd.Series(data = frutas, index = dias))
print(10 * '-')
print(pd.Series(frutas, index = dias))

Se puede acceder a los elementos utilizando el indice.

In [None]:
print(s['A'])
print(s['Z'])
print(s['C'])
print(s['Y'])
print(s['E'])

Se puede acceder a los elementos igualmente utilizando el indice numerico.

In [None]:
print(s[0])
print(s[1])
print(s[2])
print(s[3])
print(s[4])

Tambien se puede convertir un diccionario a una estructura _Series_.

In [None]:
d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None}
cities = pd.Series(d)
print(cities)

Se puede usar el indice para acceder a la estructura.

In [None]:
print(cities['Chicago'])

In [None]:
print(cities[['Chicago', 'Portland', 'San Francisco']])

O se puede utilizar indexado booleano (como en numpy) para el acceso.

In [None]:
print cities[cities < 1000]

Que ocurrio arriba? cities < 1000 devuelve un _Series_ de valores _True/False_ que depues se pasan a la estructura _Series_ idexando los items que corresponden con los valore _True_.

In [None]:
less_than_1000 = cities < 1000
print(less_than_1000)
print('\n')
print(cities[less_than_1000])

Se puede cambiar el valor de _Series_.

In [None]:
# cambiando valores basado en el indice
print('Old value:', cities['Chicago'])
cities['Chicago'] = 1400
print('New value:', cities['Chicago'])

In [None]:
# cambiando valores usando logica booleana
print(cities[cities < 1000])
print('\n')
cities[cities < 1000] = 750

print cities[cities < 1000]

Se puede comprobar si un item esta contenido en la _Series_.

In [None]:
print('Seattle' in cities)
print('San Francisco' in cities)

Se pueden hacer operaciones aritmeticas.

In [None]:
# dividir por 3
print cities / 3

In [None]:
# elevar al cuadrado
print np.square(cities)

In [None]:
print(cities[['Chicago', 'New York', 'Portland']])
print('\n')
print(cities[['Austin', 'New York']])
print('\n')
print(cities[['Chicago', 'New York', 'Portland']] + cities[['Austin', 'New York']])

**Nota:** Austin, Chicago y Portlan no se encontraron en ambas _Series_, fueron retornadas con valores NULL/NaN.

Se puede comprobar si un valor es NULL a traves de _isnull_ y _notnull_ .

In [None]:
# devuelve una Serie booleana diciendo cuales no son Null
print cities.notnull()

Se puede usar logica booleana para indexar las ciudades que no son NULL

In [None]:
# usando logica booleana para indexar las ciudades que no son NULL
print(cities.isnull())
print('\n')
print(cities[cities.isnull()])

## Atributos de objetos Series

Los atributos son estructuras que los objetos contienen para almacenar informacion relativa al objeto en cuestion. Cualquier objeto tiene atributos definidos y se pueden acceder a ellos a traves del _._ y el nombre del atributo en cuestion. Veamos un ejemplo.

In [None]:
d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None}
cities = pd.Series(d)
print(cities)

Podemos consultar los valores que hay en la _Series_ a traves del atributo _values_.

In [None]:
print(cities.values)

De igual forma podemos consultar los valores del indice que hay en la Series a traves del atributo _index_.

In [None]:
print(cities.index)

Y nos permite consultar el tipo de datos que guarda la _Series_ a traves de _dtype_.

In [None]:
print(cities.dtype)

Mira si los elementos del la _Series_ son unicos (no hay repeticiones).

In [None]:
print(cities.is_unique) # mira elementos unicos en los valores
print(cities.index.is_unique) # mira elementos unicos en el indice

Habras notado que pese a tener elementos no repetidos cuando preguntamos si los valores del _Series_ son unicos la respuesta es False.

In [None]:
cities['Boston'] = 600
print(cities.is_unique)

## Metodos de objetos Series

Los metodos son funciones internas que los objetos tienen asociados. Los objetos _Series_ tienen una serie de metodos que nos permitiran realizar calculos en la estructura.

In [None]:
precios = [2.99, 4.45, 1.36]
s = pd.Series(precios)
print(s)

Podemos realizar la suma de los elementos del la _Series_.

In [None]:
print(s.sum())

Tambien su multiplicacion.

In [None]:
print(s.product())

O la media y su desviacion estandar.

In [None]:
print('La media es: {0}, y la STD es: {1}'.format(s.mean(),s.std()))

O podemos obtener una descripcion de los elementos usando el metodo _describe()_.

In [None]:
print(s.describe())

Se puede echar un vistazo a los atributos y a los metodos disponibles en una clase usando el tabulador despues del _._.

In [None]:
s.

### Los metodos `.head()` y `.tail()` 

In [47]:
precios = pd.Series(np.arange(5,100,5))

El metodo head() nos va a permitir mostrar los primeros elementos del _Series_. Por defecto muestra 5 elementos aunque le podemos pasar un numero como parametro indicandole cuantos elementos debe mostrar.

In [None]:
print(precios.head())

In [None]:
print(precios.head(8))

El metodo tail() nos va a permitir mostrar los ultimos elementos del Series. Por defecto muestra 5 elementos aunque le podemos pasar un numero como parametro indicandole cuantos elementos debe mostrar.

In [None]:
precios.tail()

In [None]:
print(precios.tail(8))

### El metodo `.map()`

El metodo _map_ nos va a permitir iterar sobre cada elemento de la serie y aplicar una funcion. Podemos definir la funcion fuera o como vimos en la seccion de funciones a traves de un _lambda_.

In [61]:
precios = pd.Series(np.arange(-10,10,5))

In [None]:
print(precios)

Vamos a cambiar los valores de precios y poner los negativos a 0 dado que no existen los precios negativos. Para ello nos definimos una funcion que nos permita realizar el cambio y luego la mapearemos.

In [64]:
def to_positive(elem):
    if elem < 0:
        return 0
    else:
        return elem

Ahora al aplicar _map_ se recorre toda la _Series_ y se aplica la funcion definida.

In [None]:
print(precios.map(to_positive))

Esto tambien se puede hacer de manera sencilla con _lambda_.

In [None]:
print(precios.map(lambda elem: 0 if elem < 0 else elem))

La utilizacion de _map_ es muy poderosa y nos va a permitir realizar y aplicar funciones a nuestros datos de forma rapida y sencilla.

# Dataframe

Puedes pensar en un _Dataframe_ como una estructura de datos tabular que almacena cualquier clase de informacion en filas y columnas. Por hacer un simil, uno podria pensar en un hoja de Excel como algo similar (no es lo mismo pero se parecen).

En realidad un _Dataframe_ no es mas que un conjunto de estructuras _Series_ que comparten un mismo indice (en realidad hay mas pero como aproximacion es valida). Por defecto el indice va de 0 hasta N-1 donde N es el numero de filas del _Dataframe_. Se puede crear de forma manual un _Dataframe_ como sigue.

In [None]:
data = {'year': [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012],
        'team': ['Barca', 'Barca', 'Barca', 'Madrid', 'Madrid', 'Mallorca', 'Mallorca', 'Mallorca'],
        'wins': [11, 8, 10, 15, 11, 6, 10, 4],
        'losses': [5, 8, 6, 1, 5, 10, 6, 12]}
football = pd.DataFrame(data, columns=['year', 'team', 'wins', 'losses'])
football.head()

### Algunos metodos y atributos de los DataFrames

Existen una serie de atributos y metodos que son compartidos con los objetos _Series_ y _Numpy_. Por ejemplo, podemos consultar el _index_ y los _values_.

In [None]:
print(football.index)
print(20*'-')
football.values

Podemos ver la forma de nuestro _DataFrame_ y tambien el tipo de las columnas que contiene y su nombre.

In [None]:
print(football.shape)
print(20*'-')
print(football.columns)
print(20*'-')
print(football.axes)
print(20*'-')
football.dtypes

Y tambien podemos ver la informacion que hay en el _DataFrame_ a traves del metodo _info_.

In [None]:
football.info()

Como puedes ver, tenemos columnas con enteros y un tipo object que en _Pandas_ se utiliza para guardar cadenas. Para simplificar puedes pensar en el como un tipo cadena.  

Los metodos head() y tail() tambien se pueden ejecutar en el DataFrame. La funcion _head()_ nos permite explorar las primeras filas del _Dataframe_ y la funcion _tail()_ las ultimas.

In [None]:
football.head()

In [None]:
football.tail()

De forma analoga a los _Series_ podemos obtener una descripcion de las columnas numericas del _DataFrame_.

In [None]:
football.describe()

### Lectura de un DataFrame

Ya ves que el metodo _head_ funciona y esto es porque debajo del dataframe tenemos _Series_ corriendo. Es mucho mas habitual leer un _Dataframe_ desde un fichero de texto _csv_ con la funcion de _Pandas_ *pd.read_csv*

In [None]:
df_nba = pd.read_csv('pandas/nba.csv')
df_nba.head() # por defecto 5 lineas

### Accediendo a las columnas

Se puede acceder a las columnas a traves del operador de indexacion _[ ]_ o el operador _._ .

In [None]:
# Acceso a la columna salary con el punto
df_nba.Salary.head()

El operador de indexacion con corchetes es mas versatil y permite acceder a mas de una columna y columnas con nombres que tienen espacios.

In [None]:
# Acceso a la columna salary con [ ]
print(type(df_nba['Salary']))
df_nba['Salary'].head()

Para acceder a dos o mas columnas se pone el nombre de las columnas encerrado en una lista.

In [97]:
# Acceso a la columna name, salary [ ]
print(type(df_nba[['Name', 'Salary']]))
df_nba[['Name', 'Salary']].head()

In [None]:
df_nba[['Salary', 'Name', 'Team']].head()

Existe un metodo que viene de las _Series_ que nos permite contar cuantas ocurrencias de cada elemento aparecen en nuestro _DataFrame_. Solo actua sobre una columna a cada vez, intentarlo con dos nos dara error.

In [None]:
# cuenta los jugadores que hay que cada position
df_nba['Position'].value_counts()

### Agregando una columna nueva

Agregar una nueva columna a un _DataFrame_ es muy sencillo. Es tan sencillo como indicar el nombre de la columna y asignarle un valor.

In [None]:
df_nba = pd.read_csv('pandas/nba.csv')
df_nba.head() # por defecto 5 lineas

In [None]:
# Vamos a crear una nueva columna
df_nba['Sport'] = 'Basket'
df_nba.head()

Como puedes ver la columna se inserta al final del _DataFrame_. Para poder insertar la nueva columna en una posicion determinada debemos usar el metodo _insert_.

In [None]:
df_nba = pd.read_csv('pandas/nba.csv')
df_nba.head() # por defecto 5 lineas

In [None]:
# df_nba(posicion, column_name, value)
df_nba.insert(2, 'Sport', 'Basket')

df_nba.head()

Ahora la columna esta en la posicion que nosotros le hemos indicado.

### Modificando los valores de una columna

Una columna puede ser modificada de forma sencilla seleccionandola y asignandole un nuevo valor.

In [None]:
# pongamos que la nba en realidad es baseball...
df_nba['Sport'] = 'Baseball'
df_nba.head()

Tambien se puede modificar valores en base a otra columna. El peso esta en libras, vamos a cambiarlo a KG y crear una nueva columna.

In [None]:
lb2kg = 0.453592 # una libra son 0.453592 kg
df_nba['Weight_kg'] = df_nba['Weight'] * lb2kg
df_nba.head()

### Eliminando valores *Null* con `.dropna()` 

In [140]:
df_nba = pd.read_csv('pandas/nba.csv')

Probablemente a estas altura te habras dado cuenta que el salario de la tercera columna esta representado como *NaN*. Esto es lo que conocemos como missing o Null values. En Excel, esa celda apareceria vacia. Este tipo de valores pueden representar un problema cuando analizamos datos de modo que los podemos eliminar usando el metodo *dropna*.

In [None]:
# Eliminamos las filas que tienen uno o mas Null values
# Observa como la fila con indice 2 desaparece porque tiene un Null en el Salario
print(df_nba.dropna(how='any').shape)
df_nba.dropna(how='any').head()

Tambien podemos eliminar columnas usando el parametro _axis_. Por defecto Python intenta eliminar filas (axis=0) pero podemos eliminar las columnas que tengan un valor Null.

In [None]:
# College y Salary se eliminan
print(df_nba.dropna(axis=1).shape)
df_nba.dropna(axis=1).head()

Tambien podemos querer eliminar aquellas fillas que tengan un Null en una columna en concreto usando el parametro _subset_.

In [None]:
# Solo eliminamos las filas con Nulls en Salary
print(df_nba.dropna(subset=['Salary']).shape)
df_nba.dropna(subset=['Salary']).head()

### Rellenando los valores Null con `.fillna()` 

Una alternativa a la eliminacion de _missing_ values es su sustitucion por valores. Esto en Python se puede hacer a traves del metodo _fillna_.

In [None]:
df_nba = pd.read_csv('pandas/nba.csv')

In [155]:
# sustituimos el salario por 0 y lo guardamos en el DataFrame a traves del parametro inplace
df_nba['Salary'].fillna(0, inplace=True)
df_nba['College'].fillna('N/A', inplace=True)

In [None]:
df_nba.head()

Y si queremos substituirlo por la media de los valores. Es sencillo hacer uso de los metodos para ello.

In [None]:
df_nba = pd.read_csv('pandas/nba.csv')
df_nba['Salary'].fillna(int(df_nba['Salary'].mean()), inplace=True)
df_nba.head()

### Cambiando los tipos de las columnas con `.astype()` 

In [None]:
df_nba = pd.read_csv("pandas/nba.csv").dropna(how = "all")
df_nba["Salary"].fillna(0, inplace = True)
df_nba["College"].fillna("None", inplace = True)
df_nba.head(3)

In [None]:
df_nba.info()

Podemos cambiar la columnas de edad, salario y numero a enteros para que sus tipos sean los adecuados.

In [177]:
df_nba["Salary"] = df_nba["Salary"].astype("int") # cambiamos columna salario a entero

In [None]:
df_nba.head(3)

In [None]:
df_nba["Number"] = df_nba["Number"].astype("int") # a entero
df_nba["Age"] = df_nba["Age"].astype("int") # a entero
df_nba.head(3)

En cualquier momento podemos volver a cambiarlos a tipo _float_.

In [166]:
df_nba["Salary"] = df_nba["Salary"].astype("float") # cambiamos columna salario a float

Existen columna que contienen pocos elementos distintos. Por ejemplo, la columna Position solo contiene 5 elementos que son las posiciones que existen en la pista de baloncesto. Estos elementos se puede representar de una manera mas eficiente que como tipo _object_ si los cambiamos a categorias.

In [None]:
df_nba["Position"] = df_nba["Position"].astype("category")
df_nba["Team"] = df_nba["Team"].astype("category")
df_nba.head(3)

A la vista no cambia nada pero si accedemos a la informacion podemos ver como hemos ahorrado un 8% de memoria que te permitira cargar mas datos para tus analisis.

### Ordenando el DataFrame `.sort_values()` 

La ordenacion de un _DataFrame_ en base a una columna o columnas es un elemento muy potente que nos va a ser muy util cuando realicemos analisis. 

In [187]:
df_nba = pd.read_csv("pandas/nba.csv")

Veamos quienes son los 5 jugadores que menos cobran de la NBA.

In [None]:
df_nba.sort_values('Salary').head(5)

Y si queremos saber los que mas cobran?. Podemos utilizar el parametro _ascending=False_ (por defecto es True).

In [None]:
df_nba.sort_values('Salary', ascending=False).head(5)

Esto se puede combinar de multiples formas y agregar mas columnas y con simples reordenamientos ya podemos comenzar a realizar pequenios analisis.

In [None]:
# Primero ordena por edad y luego por salario
df_nba.sort_values(['Age', 'Salary'], ascending=[True, False]).head(5)

Por defecto los valores _Null_ se van al final aunque podemos cambiar este comportamiento. El parametro *na_position* nos ayudara a ello.

In [None]:
df_nba.sort_values('Salary').tail(3)

In [None]:
df_nba.sort_values('Salary', na_position='first').tail(3)

### Ordenando el DataFrame `.sort_index()` 

Cuando ordenamos en base a los valores nuestro _Dataframe_ desordena los indices que tenemos. Si queremos volver al estado inicial podemos usar *sort_index()*.

In [192]:
df_nba = pd.read_csv("pandas/nba.csv")
df_nba = df_nba.sort_values(['Age', 'Salary'], ascending=[True, False])
# nuestro DataFrame tiene los indices desordenados
df_nba.head(5)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
122,Devin Booker,Phoenix Suns,1.0,SG,19.0,6-6,206.0,Kentucky,2127840.0
226,Rashad Vaughn,Milwaukee Bucks,20.0,SG,19.0,6-6,202.0,UNLV,1733040.0
410,Karl-Anthony Towns,Minnesota Timberwolves,32.0,C,20.0,7-0,244.0,Kentucky,5703600.0
116,D'Angelo Russell,Los Angeles Lakers,1.0,PG,20.0,6-5,195.0,Ohio State,5103120.0
56,Jahlil Okafor,Philadelphia 76ers,8.0,C,20.0,6-11,275.0,Duke,4582680.0


In [None]:
# reordenacion del indice de menor a mayor
df_nba.sort_index().head(3)

In [None]:
# reordenacion de mayor a menor
df_nba.sort_index(ascending=False).head(3)

### Rankeando el DataFrame `.rank()` 

Un metodo interesante que nos permite realizar un ranking de los jugadores mejor pagados es _rank()_.

In [199]:
df_nba = pd.read_csv("pandas/nba.csv").dropna(how = "all")
df_nba["Salary"] = df_nba["Salary"].fillna(0).astype("int")
df_nba.head(3)

Unnamed: 0,Name,Team,Number,Position,Age,Height,Weight,College,Salary
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0


In [200]:
# ranking de mayor a menor de los salarios de jugadores
# creamos nueva columna
df_nba['Salary Rank'] = df_nba['Salary'].rank(ascending = False).astype('int')

Vamos a comprobar que todo funcionando ordenando el _DataFrame_.

In [None]:
df_nba.sort_values('Salary', ascending=False).head(20)

Lo interesante de todo esto es que valores iguales tendran el mismo ranking.

### Filtrando  `DataFrames` en base a una o mas condiciones

Vamos a ver como se puede realizar una seleccion precisa de valores en nuestro _DataFrame_ en base a una condicion.

In [210]:
df = pd.read_csv("pandas/employees.csv", parse_dates = ["Start Date", "Last Login Time"])
# convertimos Senior Management en bool
df["Senior Management"] = df["Senior Management"].astype("bool")
# cambiamos a category el genero que solo tiene dos valores distintos
df["Gender"] = df["Gender"].astype("category")
df.head(3)

Unnamed: 0,First Name,Gender,Start Date,Last Login Time,Salary,Bonus %,Senior Management,Team
0,Douglas,Male,1993-08-06,2018-02-02 12:42:00,97308,6.945,True,Marketing
1,Thomas,Male,1996-03-31,2018-02-02 06:53:00,61933,4.17,True,
2,Maria,Female,1993-04-23,2018-02-02 11:17:00,130590,11.858,False,Finance


Para ello se utiliza los operadores logicos y creamos unas variables de filtrado. **El filtrado en el fondo no es mas que una indexacion booleana que accede a las filas donde las mascaras de filtrado son True.**

In [None]:
mask1 = df["Gender"] == "Male"
mask2 = df["Team"] == "Marketing"
# recupera aquellos empleados que sean hombres y cuyo equipo sea marketing
df[mask1 & mask2].head()

O en una linea.

In [None]:
df[(df["Gender"] == "Male") & (df["Team"] == "Marketing")].head()

El codigo anterior realizar un filtrado en base a dos condiciones que se han de cumplir utilizando el operador & que realiza un filtrado AND elemento a elemento en las _Series_. El siguiente lo hace en base a que una de las condiciones se cumplan. Esto se hace en base al operador | que hace las veces de OR.

In [None]:
# empleados que son hombres, o trabajan en marketing o ambos
df[(df["Gender"] == "Male") | (df["Team"] == "Marketing")].head()

Las condiciones de filtrado se pueden aplicar usando cualquiera de los operadores de comparacion que conocemos.

In [None]:
# salarios > 100000 $
df[(df["Salary"] > 100000)].head()

In [None]:
# salarios > 100000 $ y que no son senior management
df[(df["Salary"] > 100000) & (df["Senior Management"] == False)].head()

Las combinaciones son infinitas y podemos obtener cualquier tipo de informacion. Por ejemplo.

In [None]:
mask1 = df["First Name"] == "Robert"
mask2 = df["Team"] == "Client Services"
mask3 = df["Start Date"] > "2016-06-01"

# recoge a Robert de Client Services 
#y aquellos empleados que empezaron despues de la fecha marcada
df[(mask1 & mask2) | mask3]

### El metodo `.isin()`

In [None]:
df = pd.read_csv("employees.csv", parse_dates = ["Start Date", "Last Login Time"])
df["Senior Management"] = df["Senior Management"].astype("bool")
df["Gender"] = df["Gender"].astype("category")
df.head(3)

Que ocurre si queremos filtrar en base a varios valores de una columna.

In [None]:
mask1 = df["Team"] == "Legal"
mask2 = df["Team"] == "Sales"
mask3 = df["Team"] == "Product"

df[mask1 | mask2 | mask3].head()

El metodo _isin( )_ simplifica de forma significativa esta operacion. Ahora ya vamos con la forma pythonica.

In [None]:
df[df['Team'].isin(['Legal','Sales','Product'])].head()

### Los metodos `.isnull()` y `.notnull()`

Estos dos metodos complementarios nos van a permitir filtrar aquellas filas que tengan valores Null o las que no los tengan en base al indexado booleano.

In [None]:
# filas con el departamento Null (desconocido)
mask = df["Team"].isnull()

df[mask].head()

In [None]:
# filas cuyo genero es conocido
condition = df["Gender"].notnull()

df[condition].head()

### El metodo `.between()`

Este metodo nos facilitara la vida para realizar un filtrado por rango de valores.

In [None]:
# aquellos que cobran entre (60000, 70000)
df[df["Salary"].between(60000, 70000)].head()

In [None]:
# aquellos con un bonus entre 2% y 5%
df[df["Bonus %"].between(2.0, 5.0)].head()

In [None]:
# o podemos seleccionar los empleados en que empezaron rango de fechas
df[df["Start Date"].between("1991-01-01", "1992-01-01")].head()

In [None]:
# podemos chequear quienes se logearon entre las 8.30 y las 12 del mediodia
df[df["Last Login Time"].between("08:30AM", "12:00PM")]

### El methodo `.duplicated()`

In [245]:
df = pd.read_csv("pandas/employees.csv", parse_dates = ["Start Date", "Last Login Time"])
df["Senior Management"] = df["Senior Management"].astype("bool")
df["Gender"] = df["Gender"].astype("category")
df.sort_values("First Name", inplace = True)
df.head(3)

Este metodo nos servira extraer las filas repetidas en nuestro DataFrame. Por defecto si no ponemos nada, Pandas guarda la fila con el primer duplicado y nos devuelve el resto de duplicados.

In [None]:
df[df["First Name"].duplicated(keep='first')].head()

Podemos cambiar esto para que nos guarde el ultimo duplicado y nos devuelva el resto.

In [None]:
df[df["First Name"].duplicated(keep='last')].head()

Si queremos acceder a aquellos registros que NO tienen duplicados lo podemos hacer de la siguiente manera. En este caso le indicamos a Pandas que no se guarde ningun duplicado y luego con el operador de NOT (de negacion) ~ invertimos el resultado.

In [None]:
# ~ hace que el resultado booleano se invierta y nos quedemos con los no duplicados
df[~df["First Name"].duplicated(keep = False)].head()

**Cuidado que este metodo solo se puede aplicar en una columna (un objeto _Series_)**

### El metodo `.drop_duplicates()` 

In [None]:
df = pd.read_csv("employees.csv", parse_dates = ["Start Date", "Last Login Time"])
df["Senior Management"] = df["Senior Management"].astype("bool")
df["Gender"] = df["Gender"].astype("category")
df.sort_values("First Name", inplace = True)
df.head(3)

Este metodo es la version de _DataFrame_ para eliminar duplicados. 

Si no indicamos nada *drop_duplicates* intentara eliminar las filas que sean tengan todos los valores de sus columnas identicas. Si esto no ocurre, no eliminara ninguna.

In [None]:
# no existen filas duplicadas
#que tengan todas las columnas iguales
print(len(df.drop_duplicates()))
print(len(df))

Podemos sin embargo especificar una columna con duplicados y actuar sobre ella.

In [None]:
# elimina todos los duplicados de la columna nombre y guarda el primero
df.drop_duplicates(subset = ["First Name"], keep = 'first').head()

In [None]:
# elimina todos los duplicados de la columna nombre y guarda el ultimo
df.drop_duplicates(subset = ["First Name"], keep = 'last').head()

Y podemos especificar mas de una columna sobre la que actuar.

In [None]:
# elimina todos los duplicados de la columna nombre y team guarda el ultimo
df.drop_duplicates(subset = ["First Name", "Team"], keep = 'primero').head()

### Los metodos `.unique()` y `.nunique()` 

In [None]:
df = pd.read_csv("employees.csv", parse_dates = ["Start Date", "Last Login Time"])
df["Senior Management"] = df["Senior Management"].astype("bool")
df["Gender"] = df["Gender"].astype("category")
df.head(3)

Estos metodos nos permiten identificar aquellos valores unicos de las diferentes columnas que tenemos en nuestro DataFrame. Es un metodo que actual a nivel de columna (_Series_) de modo que si lo invocamos con mas de una columna obtendremos un error.

In [None]:
print(df["Gender"].unique())
print(len(df["Gender"].unique()))

In [None]:
print(df["Team"].unique())
print('Existen {0} departamentos en la empresa.'.format(len(df["Team"].unique())))

Una manera mas elegante de calcular el numero de valores unicos es directamente a traves de la funcion _nunique_. **Cuidado con esta funcion que excluye en su cuenta por defecto los Nulls.**

In [267]:
print('Existen {0} nombres distintos de empleados en la empresa.'.format(
    df["First Name"].nunique(dropna = True)))
print('Existen {0} departamentos en la empresa.'.format(
    df["Team"].nunique(dropna = False)))

Existen 200 nombres distintos de empleados en la empresa.
Existen 11 departamentos en la empresa.


Al igual que en el modulo _Numpy_ se pueden realizar operaciones de forma muy sencilla con el indexado booleano

In [None]:
print 'Mean Poblacion', nuc_pob['Poblacion'].mean()
print 'STD Poblacion', nuc_pob['Poblacion'].std()
print 'Min Poblacion', nuc_pob['Poblacion'].min()
print 'Max Poblacion', nuc_pob['Poblacion'].max()

Y se pueden combinar las operaciones para obtener resultados mas interesantes

In [None]:
nuc_pob[nuc_pob['Poblacion'] >50000].head()

In [None]:
nuc_pob[(nuc_pob['Poblacion'] >50000) & (nuc_pob['Provincia'] == 'Granada') ].head()

Ordenar los valores en base a una columna nunca fue tan sencillo

In [None]:
nuc_pob.sort_values('Poblacion', ascending = False).head() # si pones ascending = True los ordena en orden ascendente 

Puedes resetear el indice para que despues de ordenarlos cambie. Observa como cambia el indice y ahora se ha reseteado y aparece el nuevo indice con las ciudades ordenadas. 

In [None]:
# Esto puede servirte muy util para ordenar y encontrar luego posiciones
nuc_pob.sort_values('Poblacion', ascending = False).reset_index(drop=True).head() # con drop nos deshacemos del antiguo indice

# Ejercicios

### Jugando nucleos de poblacion

El dataset se compone de:
- FID: es in identificador de numero linea lo puedes ignorar
- Texto: nombre de la poblacion
- Poblacion: numero de habitantes
- CodMun: codigo postal
- Municipio: nombre del municipio (usa este para los ejercicios)
- CodProvin: codigo provincia
- Provincia: nombre de la provincia
- X: Longitud en grados
- Y: Latitud en grados

1 - Carga el fichero 'NucleosPoblacion.csv' explora con las funciones _head_ y _tail_ el principio y el final.

In [268]:
nuc_pob = pd.read_csv('pandas/NucleosPoblacion.csv')

2 - Cual es la ciudad mas poblada?

3 - Que posicion ocupa Granada en las mas pobladas?. La funcion *sort_values* puede ayudarte en tu cometido

4 - Escribe el nombre de los 10 municipios con menor poblacion

5 - Cuantos municipios en Extremadura tienen mas de 5000 habitantes?

6 - ¿Cuál es el municipio situado más al Norte? (Usar el valor de la coordenada "Y" que representa la latitud en grados). Proporcione también la provincia a la que pertenece y su población.

7 - ¿Cual es el municipio de la provincia de Granada situado más al Este?. ¿Cual es el situado más al Oeste?.

8 - ¿Cuántos Municipios hay en un radio de 5 grados de la ciudad de Barcelona?.

9 - Obtenga la media, mediana, desviación estándar, valor máximo y valor mínimo de la población de los municipios de la provincia de Granada

### Volviendo al estudio del performance de los estudiantes ahora con DataFrames"

La descripcion del dataset es el siguiente, en columnas (recuerda que las columnas en Python empiezan en 0):

- 1: school - student's school (binary: 0 - Gabriel Pereira or 1 - Mousinho da Silveira) 
- 2: sex - student's sex (binary: 0 - female or 1 - male) 
- 3: age - student's age (numeric: from 15 to 22) 
- 4: address - student's home address type (binary: 0 - urban or 1 - rural) 
- 5: famsize - family size (binary: 0 - greater than 3 or 1 - less or equal to 3) 
- 6: Pstatus - parent's cohabitation status (binary: 0 - apart or 1 - living together) 
- 7: Medu - mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 - 5th to 9th grade, 3 - secondary education or 4 - higher education) 
- 8: Fedu - father's education (numeric: 0 - none, 1 - primary education (4th grade), 2 - 5th to 9th grade, 3 - secondary education or 4 - higher education) 
- 9: traveltime - home to school travel time (numeric: 1 - 15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - more than 1 hour) 
- 10: studytime - weekly study time (numeric: 1 - less than 2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - more than 10 hours) 
- 11: failures - number of past class failures (numeric: n if 1 less,equal than 3, else 4) 
- 12: schoolsup - extra educational support (binary: 1 - yes or 0 - no) 
- 13: famsup - family educational support (binary: 1 - yes or 0 - no) 
- 14: paid - extra paid classes within the course subject (binary: 1 - yes or 0 - no) 
- 15: activities - extra-curricular activities (binary: 1 - yes or 0 - no) 
- 16: nursery - attended nursery school (binary: 1 - yes or 0 - no) 
- 17: higher - wants to take higher education (binary: 1 - yes or 0 - no) 
- 18: internet - Internet access at home (binary: 1 - yes or 0 - no) 
- 19: romantic - with a romantic relationship (binary: 1 - yes or 0 - no) 
- 20: famrel - quality of family relationships (numeric: from 1 - very bad to 5 - excellent) 
- 21: freetime - free time after school (numeric: from 1 - very low to 5 - very high) 
- 22: goout - going out with friends (numeric: from 1 - very low to 5 - very high) 
- 23: Dalc - workday alcohol consumption (numeric: from 1 - very low to 5 - very high) 
- 24: Walc - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high) 
- 25: health - current health status (numeric: from 1 - very bad to 5 - very good) 
- 26: absences - number of school absences (numeric: from 0 to 93) 
- 27: G1 - first period grade (numeric: from 0 to 20) 
- 28: G2 - second period grade (numeric: from 0 to 20) 
- 29: G3 - final grade (numeric: from 0 to 20, output target)

10 - Calcula la media de notas finales (G3) para cada una de las escuelas junto con sus respectivas desviaciones estandar.

11 - De que forma influye el tiempo de estudio en los resultados de los estudiantes?. Por ahora puedes sacar las medias de las notas finales (G3) de cada asignatura. Puedes sacar las medias e imprimirlas de momento.

12 - El numero de ausencias al colegio parece influir en las notas de los alumnos?. Para ello puedes realizar el estudio a intervalos de [1-10, 11-20, 21-30...80-90]. Filtra aquellos que tengan mas de 90 faltas para que los rangos de estudio sean homogeneos.

13 - Cuanto estudiantes han sacado la maxima nota (20) en las notas finales (G3)?

14 - Compara las medias de aquellos que reciben clases extra y estudian mas de de 5 horas con aquellos que no reciben clases extra y estudian menos de 5 horas.

15 - Calcula la media y la desviacion estandar de las diferencias entre notas del segundo (G2) y primer semestre (G1). Han mejorado los alumnos sus notas?.

16 - Sacan mejores notas las chicas que tiene una relacion romantica que aquellas que no la tienen?. Realiza los calculos para la nota final (G3).

17 - Haz una comparacion de chicos y chicas y que beben y no beben los fines de semana para saber si hay diferencias en las notas. Puedes mostrar las medias de cada uno de los cuatro grupos.