# Repaso básico de Pandas

El objetivo de estos ejercicios es repasar los conceptos básicos de Pandas

In [0]:
#Importamos el paquete de pandas
import pandas as pd

#El Dataframe es el objeto básico de manejo de datos en Pandas. 
#Los Dataframes están compuesto por una lista de Series que podemos especificar como diccionarios para generar el DataFrame

city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])

pd.DataFrame({ 'City name': city_names, 'Population': population })

In [0]:
#Lo habitual es generar los Dataframe a partir de lecturas de dato de origen

california_housing_dataframe = pd.read_csv("https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv", sep=",")
california_housing_dataframe.describe()

In [0]:
#Para el acceso a los datos de los Dataframes podemos utilizar operaciones de lista o diccionario de Python

cities = pd.DataFrame({ 'City name': city_names, 'Population': population })
print(type(cities['City name']))
cities['City name']

In [0]:
#Accedemos a la primera ocurrencia (fila) del Dataframe

print(type(cities['City name'][1]))
cities['City name'][1]

In [0]:
#Obtenemos un Dataframe con las dos primeras filas
print(type(cities[0:2]))
cities[0:2]

In [0]:
#Modificar un Dataframe también es muy sencillo, por ejemplo el siguiente código añade dos Series al Dataframe existente

cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
cities['Population density'] = cities['Population'] / cities['Area square miles']
cities

# Ejercicio #1
Modifica la tabla de ciudades añadiendo una nueva columna boolean que será True si y solo sí las siguientes dos condiciones son verdaderas:

La ciudad se nombra después de un San
La ciudad tiene un área mayor de 50 millas cuadradas

Nota: Las Series Boolean se combina utilizando bitwise en lugar de los operadores booleanos tradicionales. Por ejemplo, cuando queremos realizar un and lógico, utilizamos & en lugar de and

In [0]:
#Tu solución
cities['Is wide and has saint name'] = (cities['Area square miles'] > 50) & cities['City name'].apply(lambda name: name.startswith('San'))
cities

# Indexes
Tanto las Series como los Dataframe definen la propiedad index que asigna un identificador a cada fila 
Por defecto, en su construcción, pandas asigna valores de índice que reflejan la ordenación de los datos de origen. Una vez creados, los valores del índice son estable, es decir, no cambian cuando los datos se reordenan

In [0]:
city_names.index

In [0]:
cities.index

In [0]:
#Podemos llamar a reindex para ordernar manualmente las filas. Por ejemplo, el siguiente código tendría el mismo efecto que ordenar por nombre de ciudad
cities.reindex([2, 0, 1])

In [0]:
#Reindexar es un buen modo de barajar(aleatoriamente) un Dataframe. En el siguiente ejemplo le pasamos el índice a a la función `random.permutation`que baraja sus valores en línea. 
#Llamar a reindex de este modo reordena aleatoriomente las filas

import numpy as np
cities.reindex(np.random.permutation(cities.index))

# Ejercicio #2
El método reindex permite indexar valores que no están en los valores originales del índice del Dataframe. Pruébalo y mira lo que ocurre si utilizamos esos valores. Porque crees que se permite hacer esto?

In [0]:
#Tu codigo
cities.reindex([0, 4, 5, 2])