![Verne](https://www.vernegroup.com/wp-content/uploads/2021/08/Image-1-1-1.png)
# Repaso básico de Pandas

El objetivo de estos ejercicios es repasar los conceptos básicos de Pandas

In [2]:
#Importamos el paquete de pandas
import pandas as pd

#El Dataframe es el objeto básico de manejo de datos en Pandas. 
#Los Dataframes están compuesto por una lista de Series que podemos especificar como diccionarios para generar el DataFrame

city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])

pd.DataFrame({ 'City name': city_names, 'Population': population })

Unnamed: 0,City name,Population
0,San Francisco,852469
1,San Jose,1015785
2,Sacramento,485199


In [3]:
#Lo habitual es generar los Dataframe a partir de lecturas de dato de origen

california_housing_dataframe = pd.read_csv("https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv", sep=",")
california_housing_dataframe.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0
mean,-119.562108,35.625225,28.589353,2643.664412,539.410824,1429.573941,501.221941,3.883578,207300.912353
std,2.005166,2.13734,12.586937,2179.947071,421.499452,1147.852959,384.520841,1.908157,115983.764387
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.79,33.93,18.0,1462.0,297.0,790.0,282.0,2.566375,119400.0
50%,-118.49,34.25,29.0,2127.0,434.0,1167.0,409.0,3.5446,180400.0
75%,-118.0,37.72,37.0,3151.25,648.25,1721.0,605.25,4.767,265000.0
max,-114.31,41.95,52.0,37937.0,6445.0,35682.0,6082.0,15.0001,500001.0


In [None]:
#Para el acceso a los datos de los Dataframes podemos utilizar operaciones de lista o diccionario de Python

cities = pd.DataFrame({ 'City name': city_names, 'Population': population })
print(type(cities['City name']))
cities['City name']

<class 'pandas.core.series.Series'>


0    San Francisco
1         San Jose
2       Sacramento
Name: City name, dtype: object

In [None]:
#Accedemos a la primera ocurrencia (fila) del Dataframe

print(type(cities['City name'][1]))
cities['City name'][1]

<class 'str'>


'San Jose'

In [None]:
#Obtenemos un Dataframe con las dos primeras filas
print(type(cities[0:2]))
cities[0:2]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,City name,Population
0,San Francisco,852469
1,San Jose,1015785


In [None]:
#Modificar un Dataframe también es muy sencillo, por ejemplo el siguiente código añade dos Series al Dataframe existente

cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
cities['Population density'] = cities['Population'] / cities['Area square miles']
cities

Unnamed: 0,City name,Population,Area square miles,Population density
0,San Francisco,852469,46.87,18187.945381
1,San Jose,1015785,176.53,5754.17776
2,Sacramento,485199,97.92,4955.055147


# Ejercicio #1
Modifica la tabla de ciudades añadiendo una nueva columna boolean que será True si y solo si las siguientes dos condiciones son verdaderas:

La ciudad se nombra después de un San
La ciudad tiene un área mayor de 50 millas cuadradas

Nota: Las Series Boolean se combina utilizando bitwise en lugar de los operadores booleanos tradicionales. Por ejemplo, cuando queremos realizar un and lógico, utilizamos & en lugar de and

In [None]:
#Tu solución
cities['Is wide and has saint name'] = (cities['Area square miles'] > 50) & cities['City name'].apply(lambda name: name.startswith('San'))
cities

Unnamed: 0,City name,Population,Area square miles,Population density,Is wide and has saint name
0,San Francisco,852469,46.87,18187.945381,False
1,San Jose,1015785,176.53,5754.17776,True
2,Sacramento,485199,97.92,4955.055147,False


# Indexes
Tanto las Series como los Dataframe definen la propiedad index que asigna un identificador a cada fila 
Por defecto, en su construcción, pandas asigna valores de índice que reflejan la ordenación de los datos de origen. Una vez creados, los valores del índice son estable, es decir, no cambian cuando los datos se reordenan

In [None]:
city_names.index

RangeIndex(start=0, stop=3, step=1)

In [None]:
cities.index

RangeIndex(start=0, stop=3, step=1)

In [None]:
#Podemos llamar a reindex para ordernar manualmente las filas. Por ejemplo, el siguiente código tendría el mismo efecto que ordenar por nombre de ciudad
cities.reindex([2, 0, 1])

Unnamed: 0,City name,Population,Area square miles,Population density,Is wide and has saint name
2,Sacramento,485199,97.92,4955.055147,False
0,San Francisco,852469,46.87,18187.945381,False
1,San Jose,1015785,176.53,5754.17776,True


In [None]:
#Reindexar es un buen modo de barajar(aleatoriamente) un Dataframe. En el siguiente ejemplo le pasamos el índice a a la función `random.permutation`que baraja sus valores en línea. 
#Llamar a reindex de este modo reordena aleatoriomente las filas

import numpy as np
cities.reindex(np.random.permutation(cities.index))

Unnamed: 0,City name,Population,Area square miles,Population density,Is wide and has saint name
2,Sacramento,485199,97.92,4955.055147,False
1,San Jose,1015785,176.53,5754.17776,True
0,San Francisco,852469,46.87,18187.945381,False


# Ejercicio #2
El método reindex permite indexar valores que no están en los valores originales del índice del Dataframe. Pruébalo y mira lo que ocurre si utilizamos esos valores. Porque crees que se permite hacer esto?

In [None]:
#Tu codigo
cities.reindex([0, 4, 5, 2])

Unnamed: 0,City name,Population,Area square miles,Population density,Is wide and has saint name
0,San Francisco,852469.0,46.87,18187.945381,False
4,,,,,
5,,,,,
2,Sacramento,485199.0,97.92,4955.055147,False
