## Series y Dataframes en Pandas

Pandas maneja dos objetos principales, el primero de ellos es *Panda Series*

![panda series](../images/pseries.JPG)

Es muy parecido a un arreglo unidimensional tal y como esta implementado en numpy, soporta operaciones arimeticas, muy optimizado para el proceso de datos

El segundo objeto en *Pandas Dataframe*

![pdframe](../images/pdatafr.JPG)

El dataframe es un objeto hecho de arrays, pero en una estructura matricial, se tienen filas y columnas: los indices de las columnas seran el nombre de las columnas, y los indices de las filas por lo genera es un indexado que comienza por cero.

### Primeros Pasos

- Crear un objeto de tipo *Panda Series* con los jugadores de un equipo de futbol, donde cada indixe corresponda al numero de la camiseta del jugador


In [4]:
import pandas as pd

psg_players = pd.Series(['Navas', 'Mbappe', 'Neymar', 'Messi'],
index=[1,7,10,30]
)

psg_players


1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

Otra forma de definir un *Panda Series* es con un diccionario

In [10]:
my_dict = {1:'Navas', 4:'Ramos', 7:'Mbappe', 10:'Neymar', 30:'Messi'}
psg_players = pd.Series(my_dict)
psg_players

1      Navas
4      Ramos
7     Mbappe
10    Neymar
30     Messi
dtype: object

Esta forma de definir nuestro Panda Series con diccionarios sera de  mucha utilidad cuando manipulemos archivos .JSON

Ahora vamos acceder diferentes elementos en el PD, por ejemplo a Neymar

In [11]:
psg_players[10]

'Neymar'

In [12]:
psg_players[0:2]

1    Navas
4    Ramos
dtype: object

Vamos a crear un objeto mas complejo tipo PD, donde tambies se incluya el peso del jugador en Kg

In [14]:
{'Player':['Navas', 'Mbappe', 'Neymar', 'Messi'],
'Weight':[70,81,72,69],
'Goals':[5,7,9,11]}

{'Player': ['Navas', 'Mbappe', 'Neymar', 'Messi'],
 'Weight': [70, 81, 72, 69],
 'Goals': [5, 7, 9, 11]}

In [15]:
my_dict = {'Player':['Navas', 'Mbappe', 'Neymar', 'Messi'],
'Weight':[70,81,72,69],
'Goals':[5,7,9,11]}

Y pasemos esta estructura a un Data Frame

In [21]:
pd.DataFrame(my_dict, index = [1,7,10,30])

Unnamed: 0,Player,Weight,Goals
1,Navas,70,5
7,Mbappe,81,7
10,Neymar,72,9
30,Messi,69,11


Un ejemplo interesante, podria ser tambien una *list comprehension*

In [20]:
pd.DataFrame(my_dict, index = [i**2 for i in range(4)])

Unnamed: 0,Player,Weight,Goals
0,Navas,70,5
1,Mbappe,81,7
4,Neymar,72,9
9,Messi,69,11


Y queda muy bonito. Ahora tenemos una estructura matricial indexada por filas y columnas. COmo es el caso del metodo *columns* y *index*

In [26]:
df_players = pd.DataFrame(my_dict, index = [i**2 for i in range(4)])
print(df_players.columns)
df_players.index

Index(['Player', 'Weight', 'Goals'], dtype='object')


Int64Index([0, 1, 4, 9], dtype='int64')

## Leer archivos de Pandas y Numpy 

Para poder leer archivos encontrados en internet (Repositorios, Kaggle, etc). A continuacion creo un nuevo folder llamado DataBase donde voy a guardar mis archivos CSV y demas


### read_csv

In [2]:
import pandas as pd

pd.read_csv('../Data_Base/bestsellers_with_categories.csv')

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction


La funcion *read_csv* tiene unos atributos especiales. Por ejemplo, que el archivo no este delimitado por comas sino por otro caracter. Usamos el atributo *sep*, y le colocaremos coma para que nos arroje el mismo resultado.

Usaremos tambien el metod *head* para mostrar pocos registros

In [4]:
df_best_sellers = pd.read_csv('../Data_Base/bestsellers_with_categories.csv', sep=',')
df_best_sellers.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


El siguiente atributo es el header, dado el caso que un archivo no lo tenga, supongamos que queremos la segunda filas sea nuestro header, para que muestre algo loco

In [6]:
df_best_sellers = pd.read_csv('../Data_Base/bestsellers_with_categories.csv', sep=',', header=1)
df_best_sellers.head()

Unnamed: 0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
0,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
1,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
2,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
3,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
4,A Dance with Dragons (A Song of Ice and Fire),George R. R. Martin,4.4,12643,11,2011,Fiction


Dado el caso no tenga ningun header, usamos el atributo header con None. Y para este caso concreto, tomara la primera fila como como si fuera un registro mas.

In [7]:
df_best_sellers = pd.read_csv('../Data_Base/bestsellers_with_categories.csv', sep=',', header=None)
df_best_sellers.head()

Unnamed: 0,0,1,2,3,4,5,6
0,Name,Author,User Rating,Reviews,Price,Year,Genre
1,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
2,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
3,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
4,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction


In [8]:
df_best_sellers = pd.read_csv('../Data_Base/bestsellers_with_categories.csv', sep=',', header=0)
df_best_sellers.head()

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


Y ahora cambiamelos los nombres que tiene por defecto el nombre de mis columnas, o como se conoce por su termino apropiado: **FEATURES**

In [19]:
print(df_best_sellers.columns)
my_features = ['Nombre', 'Autor', 'Calificacion', 'Reviews', 'Precio', 'Año', 'Genero']

df_best_sellers = pd.read_csv('../Data_Base/bestsellers_with_categories.csv', sep=',', header=0, names=my_features)
df_best_sellers.head()


Index(['Nombre', 'Autor', 'Calificacion', 'Revies', 'Precio', 'Año', 'Genero'], dtype='object')


Unnamed: 0,Nombre,Autor,Calificacion,Reviews,Precio,Año,Genero
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction


### Read_json

Json es un formato que se usa mucho para datos no estructurados, comenzemos por agregar el archivo de datos a la carpeta de DataBase, de los caracteres de Harry Poter

In [21]:
import pandas as pd

pd.read_json('../Data_Base/HPCharactersDataRaw.json')

Unnamed: 0,Name,Link,Descr,Gender,Species/Race,Blood,School,Profession
0,Mrs. Abbott,https://www.hp-lexicon.org/character/abbott-fa...,"Mrs. Abbott was the mother of Hannah Abbott, a...",Female,Witch,Muggle-born,Unknown,Unknown
1,Hannah Abbott,https://www.hp-lexicon.org/character/abbott-fa...,Hannah Abbott is a Hufflepuff student in Harry...,Female,Witch,Half-blood,Hogwarts - Hufflepuff,Landlady of the Leaky Cauldron
2,Abel Treetops,https://www.hp-lexicon.org/character/abel-tree...,Abel Treetops was a wizard from Cincinnati who...,Male,Wizard,Unknown,Unknown,Unknown
3,Euan Abercrombie,https://www.hp-lexicon.org/character/abercromb...,Euan Abercrombie was a small boy with prominen...,Male,Wizard,Unknown,Hogwarts - Gryffindor,Unknown
4,Aberforth Dumbledore,https://www.hp-lexicon.org/character/dumbledor...,"Aberforth Dumbledore was a tall, thin, grumpy-...",Male,Wizard,Half-blood,Hogwarts - Student,Barman
...,...,...,...,...,...,...,...,...
1935,Georgi Zdravko,https://www.hp-lexicon.org/character/georgi-zd...,Georgi Zdravko played Keeper for the Bulgarian...,Male,Wizard,Unknown,Unknown,Quidditch player (Seeker)
1936,Zograf,https://www.hp-lexicon.org/character/zograf/,Zograf played Keeper for the Bulgarian Nationa...,,Wizard,Unknown,Unknown,Quidditch player (Keeper)
1937,Zonko,https://www.hp-lexicon.org/character/zonko/,Founder(?) of Zonko’s Joke Shop. Possibly a re...,,Unknown,Unknown,Unknown,Unknown
1938,Valentina Vázquez,https://www.hp-lexicon.org/character/valentina...,Valentina Vázquez was President of the Argenti...,Female,Witch,Unknown,Unknown,President of the Argentinian Council of Magic


Los archivos Json usasn la nomenclatura llave valor, y la lleva a una estructura matricial. 

Otra manera de llevar los datos de una estructura JSON a una estructura de Pandas, es modificar el atributo *typ*. Y mostrara de otra forma. Como llave valor

In [23]:
pd.read_json('../Data_Base/HPCharactersDataRaw.json', typ='Series')

0       {'Name': 'Mrs. Abbott', 'Link': 'https://www.h...
1       {'Name': 'Hannah Abbott', 'Link': 'https://www...
2       {'Name': 'Abel Treetops', 'Link': 'https://www...
3       {'Name': 'Euan Abercrombie', 'Link': 'https://...
4       {'Name': 'Aberforth Dumbledore', 'Link': 'http...
                              ...                        
1935    {'Name': 'Georgi Zdravko', 'Link': 'https://ww...
1936    {'Name': 'Zograf', 'Link': 'https://www.hp-lex...
1937    {'Name': 'Zonko', 'Link': 'https://www.hp-lexi...
1938    {'Name': 'Valentina Vázquez', 'Link': 'https:/...
1939    {'Name': 'Zygmunt Budge', 'Link': 'https://www...
Length: 1940, dtype: object

Realmente es poco comun encontrar formatos en JSON.

Como reto te dejo visulizar los data frames directamente desde un sitio web, como Wikipedia.