
# Mod04 - Introducción a Python
## Parte 3 - Pandas

# En la clase anterior
- NumPy para datos numéricos
- Filtrado de datos con np.where
- Valores aleatorios

# Resumen
- Series y DataFrame
- Indexacion, slicing
- Grabar y cargar a archivo
- MovieLens dataset 

# pandas
- Librería (de facto estándar) para estructurar datos tabulares
- Multivariable (string, int, float, bool...)
- Dos clases:
 - Series (1 dimensión)
 - DataFrames (2+ dimensiones)

In [6]:
# librería externa
import pandas as pd
from pandas import Series, DataFrame

# Series
- Datos unidimensionales (similar a NumPy)
- Elementos + índices modificables

In [7]:
countries = pd.Series (['Spain','Andorra','Gibraltar','Portugal','France'])
# equivalente a Series(...) si se ha importado con from pandas import Series, DataFrame
countries

0        Spain
1      Andorra
2    Gibraltar
3     Portugal
4       France
dtype: object

In [8]:
# especificando el índice
countries = pd.Series (['Spain','Andorra','Gibraltar','Portugal','France'],index=range(10,60,10))
countries

10        Spain
20      Andorra
30    Gibraltar
40     Portugal
50       France
dtype: object

In [9]:
# los índices pueden ser de más tipos
football_cities

NameError: name 'football_cities' is not defined

In [None]:
football_cities.name = 'Ciudades con dos equipos en primera' # nombrar la Serie
football_cities.index.name = 'Id' # Describir los índices
football_cities

In [None]:
# acceso similar a NumPy o listas
football_cities[0]
# acceso a través del índice semántico
football_cities['a'] == football_cities[0]

# Tratamiento similar a ndarray

In [None]:
# múltiple recolección de elementos
football_cities[ ['a','c'] ]

In [None]:
# slicing
football_cities[:'c'] # incluye ambos extremos! == football_cities[:3]

In [None]:
# uso de masks para seleccionar
fibonacci = pd.Series([0,1,1,2,3,5,8,13,21])
mask = fibonacci > 10 # qué aspecto tiene 'mask'?
fibonacci[mask]

In [None]:
# aplicar funciones a la serie
import numpy as np
np.sum(fibonacci)

In [None]:
#filtrado con np.where
distances = pd.Series([12.1,np.nan,12.8,76.9,6.1,7.2])
valid_distances = np.where(pd.notnull(distances),distances,0)
valid_distances

### Iteración

In [None]:
# iterar sobre elementos e índices
for value in fibonacci:
    print('Value: ' + str(value))

In [None]:
# ¿cómo iterar sobre elementos e índices al mismo tiempo?

## Series como diccionarios
- Interpretar el índice como clave
- Acepta operaciones para diccionarios

In [10]:
# crear una serie a partir de un diccionario
serie = pd.Series( { 'Carlos' : 100, 'Marcos': 98} )

In [11]:
# añade y elimina elementos a través de índices
serie['Pedro'] = 12
del serie['Marcos']
serie

Carlos    100
Pedro      12
dtype: int64

In [12]:
# query una serie
if 'Carlos' in serie:
    serie['Carlos'] = 2
serie

Carlos     2
Pedro     12
dtype: int64

## Operaciones entre series

In [13]:
# suma de dos series
# suma de valores con el mismo índice (NaN si no aparece en ambas)
serie1 = pd.Series([10,20,30,40],index=range(4) )
serie2 = pd.Series([1,2,3],index=range(3) )
serie1 + serie2

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64

In [14]:
# resta de series (similar a la suma)
serie1 - serie2

0     9.0
1    18.0
2    27.0
3     NaN
dtype: float64

In [15]:
# operaciones de pre-filtrado
result = serie1 + serie2
result[pd.isnull(result)] = 0 # mask con isnull()
result

0    11.0
1    22.0
2    33.0
3     0.0
dtype: float64

# DataFrame
- Datos tabulares (filas x columnas)
- Columnas: Series con índices compartidos

In [16]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = { "nombre" : ["Marisa","Laura","Manuel"], "edad" : [34,29,11] }
# las claves identifican columnas
frame = pd.DataFrame(diccionario) # acepta 'index'
frame

Unnamed: 0,nombre,edad
0,Marisa,34
1,Laura,29
2,Manuel,11


In [17]:
# además de 'index', el parámetro 'columns' especifica el número y orden de las columnas
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'nombre', 'edad', 'profesion'])
frame

Unnamed: 0,Nacionalidad,nombre,edad,profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,11,


In [18]:
# acceso a columnas
nombres = frame['nombre'] # equivalente a frame.nombres
print(nombres)
type(nombres)

0    Marisa
1     Laura
2    Manuel
Name: nombre, dtype: object


pandas.core.series.Series

In [19]:
# acceso al primer nombre del DataFrame frame?

## Modificar DataFrames

In [20]:
# añadir columnas
frame = pd.DataFrame(diccionario,columns=['Nacionalidad', 'nombre', 'edad', 'profesion'])
frame['direccion'] = 'Desconocida'
frame

Unnamed: 0,Nacionalidad,nombre,edad,profesion,direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,11,,Desconocida


In [21]:
# añadir elemento (requiere todos los valores)
user_2 = ['Alemania','Klaus',39, 'none', 'Desconocida']
frame.loc[len(frame)] = user_2
frame

Unnamed: 0,Nacionalidad,nombre,edad,profesion,direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Manuel,11,,Desconocida
3,Alemania,Klaus,39,none,Desconocida


In [22]:
# eliminar fila (similar a Series)
frame = frame.drop(2) # por qué necesitamos reasignar el frame?
frame

Unnamed: 0,Nacionalidad,nombre,edad,profesion,direccion
0,,Marisa,34,,Desconocida
1,,Laura,29,,Desconocida
3,Alemania,Klaus,39,none,Desconocida


In [23]:
#eliminar columna
del frame['direccion']
frame

Unnamed: 0,Nacionalidad,nombre,edad,profesion
0,,Marisa,34,
1,,Laura,29,
3,Alemania,Klaus,39,none


In [24]:
# acceder a la inversa (como una matriz)
frame.T

Unnamed: 0,0,1,3
Nacionalidad,,,Alemania
nombre,Marisa,Laura,Klaus
edad,34,29,39
profesion,,,none


## Iteración

In [25]:
# iteración sobre el DataFrame?
for a in frame:
    print(a) # qué es 'a'?

Nacionalidad
nombre
edad
profesion


In [26]:
#iterar sobre las filas (datos)
for value in frame.values:
    print(value)

[nan 'Marisa' 34 nan]
[nan 'Laura' 29 nan]
['Alemania' 'Klaus' 39 'none']


In [27]:
# iterar sobre filas y luego sobre cada valor?

## Indexación y slicing con DataFrames

In [28]:
# indexación con índice semántico (por columnas)
frame['edad'] # --> Series

0    34
1    29
3    39
Name: edad, dtype: int64

In [30]:
# indexación con índice posicional (no permitido!)
frame[0]

In [32]:
# indexar por posición con 'loc' y 'iloc'
frame.iloc[0] # --> Series de la primera fila (qué marca los índices)

Nacionalidad       NaN
nombre          Marisa
edad                34
profesion          NaN
Name: 0, dtype: object

In [38]:
frame # --> Series de la fila con índice 'a'

Unnamed: 0,Nacionalidad,nombre,edad,profesion
0,,Marisa,34,
1,,Laura,29,
3,Alemania,Klaus,39,none


In [41]:
# se ingresa por le indice
frame.loc[3] 

Nacionalidad    Alemania
nombre             Klaus
edad                  39
profesion           none
Name: 3, dtype: object

In [42]:
# ambos aceptan 'axis' como argumento (para buscar por fila [axis=1] o columna [axis=0])
frame.iloc(axis=1)[0] # --> todos los valores asignados a la primera columna 'Nacionalidad'
frame.loc(axis=1)['Nacionalidad'] # --> preferible el equivalente frame['Nacionalidad']

0         NaN
1         NaN
3    Alemania
Name: Nacionalidad, dtype: object

In [43]:
# qué problema puede tener este fragmento?
frame = pd.DataFrame({"Name" : ['Carlos','Pedro'], "Age" : [34,22]}, index=[1,0])
frame

Unnamed: 0,Name,Age
1,Carlos,34
0,Pedro,22


In [44]:
# por defecto, pandas interpreta índice posicional --> error en frames
# cuando hay posible ambigüedad, utilizar loc y iloc
print('Primera fila\n')
print(frame.iloc[0])
print('\nElemento con index 0\n')
print(frame.loc[0])

Primera fila

Name    Carlos
Age         34
Name: 1, dtype: object

Elemento con index 0

Name    Pedro
Age        22
Name: 0, dtype: object


## Slicing

In [45]:
d_and_d_characters = {'Name' : ['bundenth','theorin','barlok'], 'Strength' : [10,12,19], 'Wisdom' : [20,13,6]}
character_data = pd.DataFrame(d_and_d_characters, index=['a','b','c'])
character_data[:-1]

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


In [46]:
# slicing con índice semántico
character_data['a':'b']

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


In [47]:
#slicing con 'loc' e 'iloc'
character_data.iloc[1:]
character_data.loc[:'b']

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13


¿Cómo filtrar filas y columnas? Por ejemplo, para todos los personajes, obtener 'Name' y 'Strength'

In [48]:
# usando 'loc' para hacer slicing
character_data.loc[:,'Name':'Strength']

Unnamed: 0,Name,Strength
a,bundenth,10
b,theorin,12
c,barlok,19


In [49]:
# usando 'loc' para buscar específicamente filas y columnas
character_data.loc[ ['a','c'], ['Name','Wisdom'] ]

Unnamed: 0,Name,Wisdom
a,bundenth,20
c,barlok,6


In [50]:
# cómo harías lo mismo con 'iloc'?

#### ¿Cómo obtendrías una lista de los personajes con el atributo Strength > 11?

In [51]:
character_data

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


In [52]:
attributes = character_data.loc[:,'Strength']
character_data[attributes>11]

Unnamed: 0,Name,Strength,Wisdom
b,theorin,12,13
c,barlok,19,6


In [53]:
# Como ejercicio, cómo listar los personajes con Strength > 15 o Wisdom > 15

# Cargar y guardar datos en pandas

In [54]:
# Guardar a csv
character_data.to_csv('resources/d_d_characters.csv',sep=';') # sep por defecto: ','

In [55]:
loaded = pd.read_table('resources/d_d_characters.csv',sep=';',index_col=0) # qué sucede si no se especifica index_col?

  """Entry point for launching an IPython kernel.


In [56]:
loaded

Unnamed: 0,Name,Strength,Wisdom
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


#### otros argumentos to_csv()
- na_rep='string' --> representar valores NaN en el archivo csv

#### otros argumentos read_table()
- na_values='string'


Pandas también ofrece funciones para grabar a otros formatos estándares: JSON, HDF5 o Excel en su [API](https://pandas.pydata.org/pandas-docs/stable/api.html#input-output).

# Ejemplo práctico en pandas
- [MovieLens dataset](http://files.grouplens.org/datasets/movielens)
 - Reviews de películas
 - 1 millón de entradas
 - Datos demográficos de usuarios

In [57]:
import numpy as np
import pandas as pd
import zipfile # para descomprimir archivos zip
import urllib.request # para descargar de URL

# descargar MovieLens dataset
url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'  
urllib.request.urlretrieve(url, 'resources/m1-1m.zip')

('resources/m1-1m.zip', <http.client.HTTPMessage at 0x189bb607b70>)

In [58]:
# descomprimiendo archivo zip
with zipfile.ZipFile('resources/m1-1m.zip', 'r') as zip: 
    print('Extracting all files...') 
    zip.extractall('resources/') # destinación
    print('Done!') 

Extracting all files...
Done!


In [59]:
# archivos creados
%ls "resources/ml-1m"

 El volumen de la unidad C es OSDisk
 El n£mero de serie del volumen es: AA01-C7AB

 Directorio de C:\Users\L44159\Downloads\01.CLASES\ML\resources\ml-1m

03/31/2020  05:24 PM    <DIR>          .
03/31/2020  05:24 PM    <DIR>          ..
03/31/2020  10:36 PM           171,308 movies.dat
03/31/2020  10:36 PM        24,594,131 ratings.dat
03/31/2020  10:36 PM             5,577 README
03/31/2020  10:36 PM           134,368 users.dat
               4 archivos     24,905,384 bytes
               2 dirs  10,046,156,800 bytes libres


In [60]:
users_dataset = pd.read_table('resources/ml-1m/users.dat',sep='::',index_col=0)
users_dataset

  """Entry point for launching an IPython kernel.
  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,F,1.1,10,48067
1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
6,F,50,9,55117
7,M,35,1,06810
8,M,25,12,11413
9,M,25,17,61614
10,F,35,1,95370
11,F,25,1,04093


In [61]:
# Varios problemas
# sin cabecera! primer valor se ha perdido
# las columnas no tienen nombres
# demasiados datos imprimidos!
pd.read_table?

In [62]:
# especificar nombres, cargar sin cabecera
users_dataset = pd.read_table('resources/ml-1m/users.dat',sep='::',index_col=0,header=None,names=['UserID','Gender','Age','Occupation','Zip-code'])
users_dataset

  
  


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
6,F,50,9,55117
7,M,35,1,06810
8,M,25,12,11413
9,M,25,17,61614
10,F,35,1,95370


In [63]:
# samplear la tabla 
users_dataset.sample(5)

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2280,M,56,6,74105
4390,M,25,0,11201
1279,M,35,1,98502
3909,M,18,17,19104
3858,F,45,9,63119


In [64]:
users_dataset.head()

Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460
5,M,25,20,55455


In [65]:
# información general sobre atributos numéricos
users_dataset.describe()

Unnamed: 0,Age,Occupation
count,6040.0,6040.0
mean,30.639238,8.146854
std,12.895962,6.329511
min,1.0,0.0
25%,25.0,3.0
50%,25.0,7.0
75%,35.0,14.0
max,56.0,20.0


In [66]:
# incluir otros atributos (no todo tiene sentido)
users_dataset.describe(include='all')

Unnamed: 0,Gender,Age,Occupation,Zip-code
count,6040,6040.0,6040.0,6040.0
unique,2,,,3439.0
top,M,,,48104.0
freq,4331,,,19.0
mean,,30.639238,8.146854,
std,,12.895962,6.329511,
min,,1.0,0.0,
25%,,25.0,3.0,
50%,,25.0,7.0,
75%,,35.0,14.0,


In [67]:
# cuántos usuarios son mujeres (Gender='F')
len(users_dataset[users_dataset['Gender'] == 'F'])

1709

In [68]:
# mostrar solo los menors de edad
under_age = users_dataset[users_dataset['Age'] < 18]
print(len(under_age))
under_age

222


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
19,M,1,10,48073
51,F,1,10,10562
75,F,1,10,01748
86,F,1,10,54467
99,F,1,10,19390
119,F,1,10,77515
153,M,1,10,51537
194,F,1,10,29146
210,F,1,10,25801


filtrar edad incorrecta (míninimo 18)

In [69]:
under_age['Age'] = np.nan
users_dataset[users_dataset['Age'] < 18] = under_age
users_dataset.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Gender,Age,Occupation,Zip-code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
2,M,56.0,16,70072
3,M,25.0,15,55117
4,M,45.0,7,2460
5,M,25.0,20,55455


Agrupar datos por atributos

In [70]:
users_dataset.groupby('Gender').describe()

Unnamed: 0_level_0,Age,Age,Age,Age,Age,Age,Age,Age,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation,Occupation
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
F,1631.0,32.287554,11.792015,18.0,25.0,25.0,45.0,56.0,1709.0,6.599766,5.89845,0.0,1.0,4.0,10.0,20.0
M,4187.0,31.568665,11.716053,18.0,25.0,25.0,35.0,56.0,4331.0,8.757331,6.390126,0.0,4.0,7.0,14.0,20.0


Grabar la tabla modificada

In [71]:
# Cambiar el separador a ','
# Guardar NaN como 'null'
users_dataset.to_csv('resources/ml-1m/users_processed.dat',sep=',',na_rep='null')

In [72]:
%pycat resources/ml-1m/users_processed.dat

# Ejercicios
- Hacer un análisis general de los otros dos archivos CSV en ml-1m ('movies.dat' y 'ratings.dat')
- Analizando el dataset ratings.dat, ¿hay algún usuario que no tenga ninguna review? ¿Cuántos tienen menos de 10 reviews?