# Introducción a Pandas y DataFrames

Pandas es una biblioteca que nos será muy útil para trabajar con archivos con diferentes formatos y analizar datos en diferentes formatos. Maneja los datos de forma tabular donde cada fila representa una instancia de dato y cada columna un campo o característica de dato. 

## Dataframes

La biblioteca Pandas está construida sobre un tipo de datos llamado DataFrame que se utiliza para almacenar todo tipo de datos mientras se trabaja en con Pandas.

Vamos a cargar datos de un archivo CSV a un DataFrame:

In [3]:
# Importamos la librería pandas, es usual ponerle el alias 'pd'

import pandas as pd

Cargamos los datos desde el archivo CSV con la función `read_csv`. Esto nos retornará un DataFrame con los datos que se encuentren dentro del archivo. También existen funciones para cargar datos desde otro tipo de formatos como **JSON**, **HTML**, **Excel**, etc.

In [15]:
grades_df = pd.read_csv('df_example.csv')
grades_df

Unnamed: 0,Nombre,Nota,Edad
0,María,16,25
1,Juan,14,22
2,Andrea,18,28
3,Carlos,12,26
4,Laura,15,24
5,Pedro,19,29
6,Ana,10,21
7,Alejandro,11,20
8,Sofía,20,30
9,David,9,23


In [8]:
# Nos muestra los 5 primeros datos

grades_df.head()

Unnamed: 0,Nombre,Nota,Edad
0,María,16,25
1,Juan,14,22
2,Andrea,18,28
3,Carlos,12,26
4,Laura,15,24


In [9]:
# Nos muestra los 5 últimos datos

grades_df.tail()

Unnamed: 0,Nombre,Nota,Edad
15,Sergio,18,28
16,Lucía,12,22
17,Jorge,15,26
18,Elena,20,30
19,Raúl,10,24


In [11]:
# Nos muestra los tipos de datos de cada columna

grades_df.dtypes

Nombre    object
Nota       int64
Edad       int64
dtype: object

Vemos que cada fila tiene un índice desde el 0 hasta el 19. Podemos hacer que una columna se convierta el índice de cada fila:

In [27]:
# Usamos el método 'set_index' y le pasamos como parámetro el nombre de la columna

grades_df = pd.read_csv('df_example.csv')

grades_df.set_index("Nombre", inplace=True)
grades_df.head()

Unnamed: 0_level_0,Nota,Edad
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
María,16,25
Juan,14,22
Andrea,18,28
Carlos,12,26
Laura,15,24


Ahora cada fila está etiquetada por su Nombre. 

## Accediendo elementos de un DataFrame

Podemos acceder a los elementos de un DataFrame por columnas o por filas.

### Acceder por columnas

Para acceder por columnas, podemos usar `grades_df[nombre de la columna]`, el cual retorna una secuencia de valores. Para acceder a un valor específico de esa secuencia, podemos acceder por el índice de la fila

In [34]:
grades_df = pd.read_csv('df_example.csv')

grades_df["Nota"]

0     16
1     14
2     18
3     12
4     15
5     19
6     10
7     11
8     20
9      9
10    17
11    13
12     8
13    16
14    14
15    18
16    12
17    15
18    20
19    10
Name: Nota, dtype: int64

In [35]:
# Accediendo a un valor específico por su índice

grades_df['Nota'][5]

19

En el caso de que el índice no sea numérico:

In [38]:
grades_df = pd.read_csv('df_example.csv')

grades_df.set_index("Nombre", inplace=True)
grades_df['Nota']

Nombre
María        16
Juan         14
Andrea       18
Carlos       12
Laura        15
Pedro        19
Ana          10
Alejandro    11
Sofía        20
David         9
Marta        17
Daniel       13
Paula         8
Adrián       16
Cristina     14
Sergio       18
Lucía        12
Jorge        15
Elena        20
Raúl         10
Name: Nota, dtype: int64

In [40]:
grades_df['Nota']['Juan']

14