# Librería Pandas - Análisis de datos

In [63]:
import pandas as pd
import numpy as np

In [64]:
d = {"alice" : [1953, 12, 3], "bob" : [1955, 11, 24], "eve" : [2011, 10, 10]}
print(pd.DataFrame(d, index=["year", "month", "day"]))

       alice   bob   eve
year    1953  1955  2011
month     12    11    10
day        3    24    10


In [65]:
# Utilizamos una lista de listas para introducir los datos y dos listas adicionales 
# para indicar las etiquetas de filas y las columnas.
a = [[1953, 12, 3], [1955, 11, 24], [2011, 10, 10]]
print(pd.DataFrame(a, columns=["year", "month", "day"], index = ["alice", "bob", "eve"]))

       year  month  day
alice  1953     12    3
bob    1955     11   24
eve    2011     10   10


In [66]:
img = [[[0, 0, 0], [0, 15, 0], [0, 0, 15], [15, 0, 0], [180, 180, 180]],
       [[200, 200, 200], [125, 1, 125], [100, 100, 2], [1, 152, 125], [15, 25, 20]]]

# Utilizamos números para indexar filas y columnas, y las letras
# "R", "G", "B" para indicar el contenido de este color en cada píxel
index = pd.MultiIndex.from_product(
    [range(len(img)), range(len(img[0])), ["R", "G", "B"]], 
    names=['row', 'column', 'color'])

In [67]:
# Creamos la serie con el índice multidimensional especificando los datos
# y los índices
s = pd.Series([x for row in img for col in row for x in col], 
               index=index)
s

row  column  color
0    0       R          0
             G          0
             B          0
     1       R          0
             G         15
             B          0
     2       R          0
             G          0
             B         15
     3       R         15
             G          0
             B          0
     4       R        180
             G        180
             B        180
1    0       R        200
             G        200
             B        200
     1       R        125
             G          1
             B        125
     2       R        100
             G        100
             B          2
     3       R          1
             G        152
             B        125
     4       R         15
             G         25
             B         20
dtype: int64

# Exploración del dataframe

In [68]:
# cargamos los datos
data = pd.read_csv("carpeta_ficheros/data_marvel-wikia-data.csv")
data.index

RangeIndex(start=0, stop=16376, step=1)

In [69]:
data['name'][:10]

0              Spider-Man (Peter Parker)
1        Captain America (Steven Rogers)
2    Wolverine (James \"Logan\" Howlett)
3      Iron Man (Anthony \"Tony\" Stark)
4                    Thor (Thor Odinson)
5             Benjamin Grimm (Earth-616)
6              Reed Richards (Earth-616)
7             Hulk (Robert Bruce Banner)
8              Scott Summers (Earth-616)
9             Jonathan Storm (Earth-616)
Name: name, dtype: object

In [70]:
data.loc[[3,8], ['name', 'ID','HAIR']]

Unnamed: 0,name,ID,HAIR
3,"Iron Man (Anthony \""Tony\"" Stark)",Public Identity,Black Hair
8,Scott Summers (Earth-616),Public Identity,Brown Hair


In [71]:
# Seleccionamos filas según el género del superhéroe utilizando operadores binarios y expresiones Python.
male = data[data['SEX'] == 'Male Characters']
female = data[data['SEX'] == 'Female Characters']

In [80]:
# Combinamos operadores binarios para seleccionar los superhéroes con identidad secreta que han aparecido más
# de dos mil veces con expresiones Python.
# ID = 'Secret Identity' and APPEARANCES > 2000
secret_and_popular = data[(data['ID'] == 'Secret Identity') & (data['APPEARANCES'] > 2000)]
secret_and_popular['name']

0    Spider-Man (Peter Parker)
Name: name, dtype: object