# Pandas (el R de Python)
Inteligencia Artificial - Facundo A. Lucianna - CEIA - FIUBA

Pandas es una herramienta de manipulación y análisis de datos de código abierto, rápida, potente, flexible y fácil de usar, construida sobre el lenguaje de programación Python. Esta herramienta hoy es estandar de facto en Data Science dado su versatilidad y potenicia para trabajar con datos estructurados. 

Pandas provee dos estructuras de datos:
- [**Series**](https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas.Series): Es una array unidimensional de cualquier tipo de dato.
- [**DataFrame**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame): Es una estructura dos dimensional tal como una tabla con filas y columnas. Esta es la estructura principal de Pandas, nos permite manipular datos estructurados muy facilmente.

### Importar biblioteca

Usando el alias **pd** para ahorrarnos trabajo cuando llamamemos a la libreria  en el script. 

In [1]:
import pandas as pd

### Series de pandas

In [2]:
# Definición de una Serie
serie1 = pd.Series([17,5,7,5,67,84,29,52,12,53,1,10])
serie1.head(15)

0     17
1      5
2      7
3      5
4     67
5     84
6     29
7     52
8     12
9     53
10     1
11    10
dtype: int64

Las series por defecto guardan cada valor en un índice numérico que arranca en 0 y va incrementándose. Pero podemos cambiarlo a cualquier tipo de índice el cual no tenga necesariamente un orden (OBS: Los datos están ordenados dentro de la Serie por el orden que están ubicados pero el índice no necesariamente debe tener un orden).

In [3]:
# Indices
serie2 = pd.Series([5.7,8.5,9.1,5.5,8.2,9.0,10,7.0,7.7,9.9],
                   index=["A","B","C","D","E","F","G","H","I","J"])
print(serie2)

A     5.7
B     8.5
C     9.1
D     5.5
E     8.2
F     9.0
G    10.0
H     7.0
I     7.7
J     9.9
dtype: float64


Las Series se pueden hacer cortes para obtener sub series

In [4]:
# Acceso a los elementos / Filtrado
print(f"El elemento ubicado en la posicion 2 es {serie2[2]}" )
print("La sub serie con los elementos ubicados en la posición 1 y 4 (sin incluir) son:" )
print(serie2[1:4])

El elemento ubicado en la posicion 2 es 9.1
La sub serie con los elementos ubicados en la posición 1 y 4 (sin incluir) son:
B    8.5
C    9.1
D    5.5
dtype: float64


Además del acceso por ubicación, podemos hacerlo por valor de índice si es que lo tiene

In [5]:
# Acceso a los elementos / Filtrado
print(f"El elemento ubicado en el indice F es {serie2['F']}" )
print("La sub serie con los elementos ubicados en la posición D y G (sin incluir) son:" )
print(serie2["D":"G"])

El elemento ubicado en el indice F es 9.0
La sub serie con los elementos ubicados en la posición D y G (sin incluir) son:
D     5.5
E     8.2
F     9.0
G    10.0
dtype: float64


Muy similar a Numpy, las series se pueden manipular con operaciones, siempre y cuando los tipos de datos de las series sean compatibles. Ponemos algunas operaciones de la enorme cantidad. Más operaciones se pueden consultar [aqui](https://pandas.pydata.org/docs/user_guide/dsintro.html#series) 

In [6]:
# Operaciones entre series
s1 = pd.Series([1, 3, 5])
s2 = pd.Series([2, 4, 6])
print("Suma:")
print(s1 + s2)
print("Resta:")
print(s1 - s2)
print("Multiplicación elemento a elemento:")
print(s1 * s2)
print("Comparaciones:")
print("Cada valor es mayor a 3?:")
print(s1>3)
print("Filtrado:")
print("Todos valores de s1 que son mayores o iguales a 3:")
print(s1[s1>=3])

print("Calculo estadisticos:")
print(f"Media de s1: {s1.mean()}")
print(f"STD de s1: {s1.std()}")

Suma:
0     3
1     7
2    11
dtype: int64
Resta:
0   -1
1   -1
2   -1
dtype: int64
Multiplicación elemento a elemento:
0     2
1    12
2    30
dtype: int64
Comparaciones:
Cada valor es mayor a 3?:
0    False
1    False
2     True
dtype: bool
Filtrado:
Todos valores de s1 que son mayores o iguales a 3:
1    3
2    5
dtype: int64
Calculo estadisticos:
Media de s1: 3.0
STD de s1: 2.0


### Dataframes de Pandas
Como mencionamos, esta estructura de datos es la más usada de Pandas y que nos permite realizar una amplia variedad de operaciones en datos tabulados de forma programática y sencilla.

A continuación vemos como se pueden crear:

In [7]:
# Dataframe vacío
df1 = pd.DataFrame()
df1.head()

Los DataFrames tiene columnas los cuales tienen nombres. Además tienen índices que funcionan exactamente con las Series. Las filas y columnas se pueden acceder por posición y nombre, lo cual veremos más adelante en detalle.

In [8]:
# Data frame desde una lista de listas
l1 = ['Sofía', 33, 'ARG', 1.77]
l2 = ['Pedro', 55, 'USA', 1.75]
l3 = ['Juan' , 18, 'CHL', 1.68]
l4 = ['María', 47, 'ECU', 1.50]
l5 = ['Lucas', 80, 'ESP',  1.8]
ListaDeListas = [l1, l2, l3, l4, l5]

df2 = pd.DataFrame(ListaDeListas, columns=['Nombre', 'Edad', 'Origen', 'Altura'])

# El método head nos permite ver las primera 5 filas del DataFrame
df2.head()

Unnamed: 0,Nombre,Edad,Origen,Altura
0,Sofía,33,ARG,1.77
1,Pedro,55,USA,1.75
2,Juan,18,CHL,1.68
3,María,47,ECU,1.5
4,Lucas,80,ESP,1.8


In [9]:
# Acceso a los elementos / Filtrado

print(f"Accediendo por nombre de indice y columna: {df2.loc[0,'Nombre']}")
print(f"Accediendo por posición de indice y columna: {df2.iloc[0,0]}")

print("\nHaciendo slicing de columnas")
df2[['Nombre', 'Origen']].head()

Accediendo por nombre de indice y columna: Sofía
Accediendo por posición de indice y columna: Sofía

Haciendo slicing de columnas


Unnamed: 0,Nombre,Origen
0,Sofía,ARG
1,Pedro,USA
2,Juan,CHL
3,María,ECU
4,Lucas,ESP


Al igual de las series, podemos realizar una infinidad de operaciones con las columnas (cada columna es una Serie de Pandas):

In [10]:
# Operaciones entre columnas
df2['2 edades'] = df2['Edad'] * 2
df2.head()

Unnamed: 0,Nombre,Edad,Origen,Altura,2 edades
0,Sofía,33,ARG,1.77,66
1,Pedro,55,USA,1.75,110
2,Juan,18,CHL,1.68,36
3,María,47,ECU,1.5,94
4,Lucas,80,ESP,1.8,160


In [11]:
df2['NombreYPais'] = df2['Nombre'] + ' de ' + df2['Origen']
df2.head()

Unnamed: 0,Nombre,Edad,Origen,Altura,2 edades,NombreYPais
0,Sofía,33,ARG,1.77,66,Sofía de ARG
1,Pedro,55,USA,1.75,110,Pedro de USA
2,Juan,18,CHL,1.68,36,Juan de CHL
3,María,47,ECU,1.5,94,María de ECU
4,Lucas,80,ESP,1.8,160,Lucas de ESP
