## PANDAS

Pandas es una librería de código abierto, provee un alto performance estructuras de datos fáciles de usar y herramientas de analisis de datos.

EL DataFrame es una de las estructuras de datos más importantes en Pandas. Es básicamente una forma de almacenar datos tabulares donde se pueden etiquetar las filas y las columnas. Una forma de crear un DataFrame es mediante un diccionario.

Trabajaremos con unos datos.

`nombres` : contiene los países donde se disponen los datos.

`dr` : Una lista con Booleanos que indica si la gente maneja del lado izquierdo o derecho.

`cpc` : El número de vehículos por cada 1000 personas en el país correspondiente.

Cada clave de diccionario es una etiqueta de columna y cada valor es una lista que contiene los elementos de la columna.



In [1]:
'''Import pandas as pd.
* Use the pre-defined lists to create a dictionary called my_dict. There should be three key value pairs:
 - key 'country' and value names.
 - key 'drives_right' and value dr.
 -key 'cars_per_cap' and value cpc.
* Use pd.DataFrame() to turn your dict into a DataFrame called cars.
* Print out cars and see how beautiful it is. 
'''
# Pre-defined lists
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]

# Import pandas as pd
import pandas as pd

# Create dictionary my_dict with three key:value pairs: my_dict
my_dict = {}
my_dict['country']=names
my_dict['drives_right']=dr
my_dict['cars_per_cap']=cpc

# dict = { 'country':names, 'drives_right':dr, 'cars_per_cap':cpc } También se pudo definir así

# Build a DataFrame cars from my_dict: cars
cars= pd.DataFrame(my_dict)

# Print cars
print(cars)

         country  drives_right  cars_per_cap
0  United States          True           809
1      Australia         False           731
2          Japan         False           588
3          India         False            18
4         Russia          True           200
5        Morocco          True            70
6          Egypt          True            45


Notaste como automáticamente enumeró las filas de 0 a 6 ? Se pueden sustituir por una etiqueta en cada fila con el método `index()` del DataFrame 

Para especificar las etiquetas de las filas iguala `cars.index = row_labels `



In [2]:

import pandas as pd

# Build cars DataFrame
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]
dict = { 'country':names, 'drives_right':dr, 'cars_per_cap':cpc }
cars = pd.DataFrame(dict)


# Definition of row_labels
row_labels = ['US', 'AUS', 'JAP', 'IN', 'RU', 'MOR', 'EG']

# Specify row labels of cars
cars.index = row_labels

# Print cars again
print(cars)

           country  drives_right  cars_per_cap
US   United States          True           809
AUS      Australia         False           731
JAP          Japan         False           588
IN           India         False            18
RU          Russia          True           200
MOR        Morocco          True            70
EG           Egypt          True            45


### Importando CSV
Para importar un csv en python como un DataFrame de Pandas puedes usar `read_csv()`

Exploremos esta función con los mismos datos de los autos. Esta vez, los datos están disponibles en un CSV, llamado cars.csv.

Recuerda `index.col` es un argumento en `pd.read_csv()` que puedes usar para especificar qué columna en el archivo CSV debe ser usado como etiqueta de fila.

In [3]:
import pandas as pd

cars= pd.read_csv('cars.csv',sep=';',index_col=0)

print(cars)


           country  drives_right  cars_per_cap
US   United States          True           809
AUS      Australia         False           731
JAP          Japan         False           588
IN           India         False            18
RU          Russia          True           200
MOR        Morocco          True            70
EG           Egypt          True            45


### Acceder a la columna

Supongamos que solo necesitamos seleccionar la columna de país. Con corchetes `[ "columna" ]` colocamos la etiqueta de la columna y automaticamente Python imprimirá los países junto con la etiqueta de la fila. 

El valor devuelto será una columna de tipo **Serie** pero si lo que queremos es que lo devuelta como un tipo **DataFrame** entonces debemos pedirlo entre dobles corchetes `[ ["columna", "columna2"] ]`

### Acceso a Filas

Para acceder a las filas lo podemos hacer mediante corchetes y especificando la porción. Suponiendo que deseamos obtener el segundo, tercer y cuarto renglón, usamos la porción 1 : 4 pues sabemos que se empieza a indexar dede la posición cero y el final de la porción no está incluida.

Si queremos acceder a la información de la misma forma que Numpy, Pandas implementa las funciones `loc y iloc` 

- loc es una técnica para seleccionar partes de nuestros datos basados en etiquetas
- iloc está basado en posiciones 

`DataFrame.loc['RU']` nos devolverá la información en distintas líneas. Si lo deseamos visualizar como un renglón, debemos señalarlo dentro de dos corchetes `DataFrame.loc[['RU']]` inclusive podemos mostrar más filas indicando sus identificadores.
`DataFrame.loc[['RU','IN','US']]`

También podemos incluir las etiquetas de las columnas dentro de el método **loc** y nos devolverá la intersección de los datos que contienen las etiquetas. `DataFrame.loc[['RU','IN','US'],[country,cars_per_cap]]`

Inclusive se pueden añadir todas las filas y las columnas solicitadas  `DataFrame.loc[ : ,[country,cars_per_cap]]`

In [4]:
#Un renglón en varias lineas
print(cars.loc['RU'])
print('\n')

# El mismo renglón en una sola
print(cars.loc[['RU']])
print('\n')

# Print out country column as Pandas Series
print(cars['country'] ,'\n')

# Print out country column as Pandas DataFrame
print(cars[['country']], '\n')

# Print out DataFrame with country and drives_right columns
print(cars.loc[:,['country','drives_right']])

country         Russia
drives_right      True
cars_per_cap       200
Name: RU, dtype: object


   country  drives_right  cars_per_cap
RU  Russia          True           200


US     United States
AUS        Australia
JAP            Japan
IN             India
RU            Russia
MOR          Morocco
EG             Egypt
Name: country, dtype: object 

           country
US   United States
AUS      Australia
JAP          Japan
IN           India
RU          Russia
MOR        Morocco
EG           Egypt 

           country  drives_right
US   United States          True
AUS      Australia         False
JAP          Japan         False
IN           India         False
RU          Russia          True
MOR        Morocco          True
EG           Egypt          True


### Operadores de Comparación

Para comparar arreglos

- AND se utiliza `np.logical_and(serie1 , serie2 )`
- OR  se utiliza `np.logical_or(serie1, serie2 )`
- NOT se utiliza `np.logical_not( serie )`

Para expresiones atomicas usamos:
- AND
- OR
- NOT



In [5]:
import numpy as np
my_house = np.array([18.0, 20.0, 10.75, 9.50])
your_house = np.array([14.0, 24.0, 14.25, 9.0])

# my_house greater than 18.5 or smaller than 10

print(np.logical_or(my_house > 18.5, my_house < 10) )

# Both my_house and your_house smaller than 11

print( np.logical_and(my_house < 11 , your_house <11) )


[False  True False  True]
[False False False  True]


### if, elif, else

He aquí un ejemplo de como se ejecutan.

~~~py
area = 10.0
if(area < 9) :
    print("small")
elif(area < 12) :
    print("medium")
else :
    print("large")
~~~



## Filtrando un DataFrame con Pandas

Vamos a encontrar todas las observaciones en donde `drives_right` sea Verdadero.

 `drives_right` es de tipo booleano, así que habrá que extraerlo como serie y usar esta para seleccionar las observaciones del Data Frame.
 
~~~py
# Extract drives_right column as Series: dr
dr = cars['drives_right'] == True

# Use dr to subset cars: sel
sel = cars[dr]

# Print sel
print(sel)

~~~

De esta manera se filtra y se obtienen los datos de Data Drame que cumplen con la condición.

Aunque esta selección se podría hacer de esta otra manera:

~~~py
#En una línea

# Convert code to a one-liner

sel = cars[ cars['drives_right'] == True ]

# Print sel
print(sel)

~~~

Ahora vamos a filtrar por cantidades. ¿en qué países tienen más autos por persona?
* Guardamos la serie `cars_per_cap` del DataFrame en la variable `cpc`
* Vamos a filtrar los autos per cápita en cada país en donde sean mayores a 500 
* Obteniendo el filtro, lo aplicamos en el DataFrame que devolverá los datos de los países.

~~~py
cpc = cars['cars_per_cap']
many_cars = cpc > 500
# Create car_maniac: observations that have a cars_per_cap over 500
car_maniac = cars[many_cars]

print(car_maniac)
~~~

#### Filtrado por intervalos

Para filtrar por inervalos en Series necesitaremos la ayuda de Numpy

Filtremos las observaciones que contengan `cars_per_cap` entre 100 y 500

~~~py
import numpy as np

medium = np.logical_and(cars['cars_per_cap']>=100,cars['cars_per_cap']<=500)
print(cars[medium])
~~~


## LOOPS

- WHILE

La sintaxis de el ciclo while es 

~~~py 
while condicion:
    expresion
~~~

- FOR

La sintaxis del `FOR` es 

~~~py
for var in seq:
    expresion

# ###########################

for estatura in fam:
    print( estatura )
    
# Esto significa: Quiero ejecutar este codigo para cada altura en la lista fam

~~~
 En el case anterior no tenemos el índice de los datos. Para lograr esto podemos utilizar `enumerate()` 
 
 ~~~py
 for indice, estatura in enumerate( fam ):
     
 ~~~

Ahora,  `enumerate`  pruduce dos valores en cada iteración: el índice del valor y el valor en sí. En lugar de escribir una variable, ahora escribiremos dos (`indice` , `estatura`), así en cada iteración `indice` contendrá en indice y `altura` contendrá el valor. Esto significa que podemos mejorar nuestra impresión con una forma un poco más complicada.

~~~py
    print("index " + str(indice) + ": " + str(estatura))
~~~


In [6]:
# Escribe un for que recorra cada sublista de house e imprima 
# 'the x is y sqm' en donde x es el nombre del cuarto y 'y' es el área del cuarto

# house list of lists
house = [["hallway", 11.25], 
         ["kitchen", 18.0], 
         ["living room", 20.0], 
         ["bedroom", 10.75], 
         ["bathroom", 9.50]]
         
# Build a for loop from scratch

for x,y in house:
    print('the '+ x + ' is ' + str(y)+ ' sqm')


the hallway is 11.25 sqm
the kitchen is 18.0 sqm
the living room is 20.0 sqm
the bedroom is 10.75 sqm
the bathroom is 9.5 sqm


### Loops en Diccionarios

Para recorrer un Diccionario, lo podemos hacer mediante el método `items()` el cual nos devuelve una tupla de la clave y su contenido.
Así podemos recorrerlo 

~~~py 
for x,y in diccionario.items():
    print(x)
    print(y)

~~~

Si se desea recorrer un arreglo 2D de Numpy se vuelve más complicado, pues esos arreglos están compuestos por multiples arreglos de una dimensión. Para iterar explicitamente sobre todos los elementos separados de un arreglo multidimensional, se necesitará de esta sintaxis.

~~~py
for x in np.nditer(my_arreglo):
    print(x)

~~~

Iterar en un diccionario de Pandas se realiza a menudo con el método `iterrows()` Dentro del `for` , cada observación es iterada y en cada iteración la etiqueta y el contenido de la fila es alcanzable.


~~~py
for lab, rows in brics.iterrows() :
    print(lab)
    print(rows)

~~~

Cada fila que se genera en `iterrows()` en cada corrida es una Serie  de Panda. Este formato no es muy conveniente. Afortunadamente puedes seleccionar facilmente las variables de la serie usando los corchetes.

~~~py
for lab, rows in brics.iterrows() :
    print(row['country'])
~~~








In [7]:
for lab, row in cars.iterrows():
    print(lab+' : '+str(row['cars_per_cap']))

US : 809
AUS : 731
JAP : 588
IN : 18
RU : 200
MOR : 70
EG : 45


### Inserción de columnas
Podemos insertar más columnas al diccionario por medio del método `loc`

~~~py
# Añadimos el largo del nombre en el país

for lab,row in brics.iterrows() :
    brics.loc[lab, 'nueva_columna']= len(row["country"])
~~~



In [8]:
# Usa un for para añadir una nueva columna llamada COUNTRY que contenga el nombre del país en mayúsculas (uppercase, upper() )

for lab,row in cars.iterrows():
    cars.loc[lab,'COUNTRY']= row['country'].upper()

print(cars)


           country  drives_right  cars_per_cap        COUNTRY
US   United States          True           809  UNITED STATES
AUS      Australia         False           731      AUSTRALIA
JAP          Japan         False           588          JAPAN
IN           India         False            18          INDIA
RU          Russia          True           200         RUSSIA
MOR        Morocco          True            70        MOROCCO
EG           Egypt          True            45          EGYPT


Es fácil usar `iterrows()` en un DataFrame de Pandas, pero no es muy eficiente. En cada iteración, estamos creando una nueva serie de Pandas.
Si se desea agregar una columna en un DataFrame llamando una función en otra columna se debería utilizar directamente el método `apply()` esto aplica una función a la serie directamente pasada como parámetro.

~~~py
# Comparalas dos versiones  con iterrows() y apply()

# iterrows()
for lab, row in brics.iterrows() :
    brics.loc[lab, "name_length"] = len(row["country"])

# Apply
brics["name_length"] = brics["country"].apply(len)

~~~
 Podemos hacer algo similar llamando al método `upper()` en cada nombre de la columna **país** , aunque `upper()` es un método, necesitaremos una aproximación un poco diferente.
 
~~~py
cars["COUNTRY"] = cars["country"].apply(str.upper) 
~~~
 