# Libreria Pandas

## Series
*One-dimensional ndarray with axis labels (including time series).*

Link a documentación:

https://pandas.pydata.org/docs/reference/api/pandas.Series.html


Un objeto Series tiene dos componentes: un índice y un vector de datos, ambos con la misma longitud. El índice contiene valores únicos y, por lo general, ordenados, y se usa para acceder a valores individuales de los datos.


## Dataframes

*Two-dimensional, size-mutable, potentially heterogeneous tabular data.*

Link a documentación:

https://pandas.pydata.org/docs/reference/frame.html

Un dataframe esencialmente es una tabla con columnas y filas indexadas, de forma tal que podemos acceder fácilmente a filas mediante el índice. También podemos unir, separar o filtrar dataframes trabajando sobre el índice. En general, los dataframes le van a resultar bastante familiares a quienes sepan SQL.

Los dataframes pueden tener datos no heterogéneos y además son **objetos** con **métodos** útiles para extraer información de forma rápida (por ejemplo, computar histogramas de valores). También es posible convertirlos a *arrays de Numpy* si así lo necesitamos, aunque no lo vamos a hacer a menos que sea realmente necesario.

# Creando Series

## A partir de listas

In [6]:
import pandas as pd

lista = ['a','bien',[3,8],'c',7,('a',3),10.8]
s1 = pd.Series(lista)
print(s1)
print(type(s1))

indices = ['uno', 'dos','tres','cuatro','cinco','seis', 'siete']
s2 = pd.Series(index=indices, data=lista)
print(s2)

0         a
1      bien
2    [3, 8]
3         c
4         7
5    (a, 3)
6      10.8
dtype: object
<class 'pandas.core.series.Series'>
uno            a
dos         bien
tres      [3, 8]
cuatro         c
cinco          7
seis      (a, 3)
siete       10.8
dtype: object


## A partir de diccionarios

In [7]:
# Creamos una serie a partir de un diccionario:
d1 = {'A' : 10, 'B' : 20, 'C' : 30} # clave('{}') y valor 
series1 = pd.Series(d1)
print(series1)


# Creamos un diccionario a partir de dos listas
valores = ['a','b',3,'c',7,'d',10]
indices = ['uno', 'dos','tres','cuatro','cinco','seis', 'siete']
d2 = dict(zip(indices, valores))
print(d2)

series2 = pd.Series(d2)
print(series2)

A    10
B    20
C    30
dtype: int64
{'uno': 'a', 'dos': 'b', 'tres': 3, 'cuatro': 'c', 'cinco': 7, 'seis': 'd', 'siete': 10}
uno        a
dos        b
tres       3
cuatro     c
cinco      7
seis       d
siete     10
dtype: object


## A partir de arrays

In [8]:
import pandas as pd
import numpy as np

x = np.arange(9,0,-1) # Crear un rango de 9 a 1 contando uno a uno (hacia atras)
print(x)
s = pd.Series(data=x**2) # x**2 devuelve el valor de cada elemento de x elevado al cuadrado

print(s)
print(type(s))

[9 8 7 6 5 4 3 2 1]
0    81
1    64
2    49
3    36
4    25
5    16
6     9
7     4
8     1
dtype: int32
<class 'pandas.core.series.Series'>


# Operaciones con Series

## Modificando una serie

In [9]:
s = pd.Series([0, 1, 2, 3, 4])
s.replace(0, 5)

0    5
1    1
2    2
3    3
4    4
dtype: int64

In [10]:
s = pd.Series([10, 'a.3', 'casa', 'b', 'a'])
s.replace({'a': None, 'b':'auto'})

0      10
1     a.3
2    casa
3    auto
4    None
dtype: object

## Operando con series

In [11]:
# Suma acumulada:
s = pd.Series([2, np.nan, 5, -1, 0])
print(s)

s.cumsum()

0    2.0
1    NaN
2    5.0
3   -1.0
4    0.0
dtype: float64


0    2.0
1    NaN
2    7.0
3    6.0
4    6.0
dtype: float64

In [12]:
# Agrupando datos:

ser = pd.Series(data=[390., 350., 30., 20.], index=['Halcon', 'Halcon', 'Loro', 'Loro'], name="Velocidad max")
print(ser)
ser.groupby(level=0).mean()

Halcon    390.0
Halcon    350.0
Loro       30.0
Loro       20.0
Name: Velocidad max, dtype: float64


Halcon    370.0
Loro       25.0
Name: Velocidad max, dtype: float64

In [14]:
# Sumamos dos series:
a = pd.Series([35000,71000,16000,5000],index=['Ohio','Texas','Oregon','Utah'])
b = pd.Series([np.nan,71000,16000,35000],index=['California', 'Texas', 'Oregon', 'Ohio'])

a+b

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [20]:
# Sumamos la serie con el función 'add()':
ab = a.add(b, fill_value=0)

ab

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah            5000.0
dtype: float64

In [19]:
# Concatenamos las series anteriores:
pd.concat((a,b), axis=1)

Unnamed: 0,0,1
Ohio,35000.0,35000.0
Texas,71000.0,71000.0
Oregon,16000.0,16000.0
Utah,5000.0,
California,,


# Creando Dataframes

## A partir de un diccionario


Una forma de construir `dataframes` es a partir de diccionarios, de forma tal que asignamos una **lista a cada llave**, que representa una columna del dataframe:

In [21]:
# Tenemos un diccionario donde, para cada alumno tenemos 'nombre', 'nota primer parcial',
# 'nota segundo parcial', 'observaciones' y 'DNI'
datos = {'alumno': ['Zutano', 'Mengano', 'Pepe' ,'Fulanito, Cosme', 'Maria'], 
         'primer parcial': [7, 8,7,4, 10], 'segundo parcial': [10,9,4,10,10], 
         'observaciones':['ninguna','libre','ninguna','libre','oyente'], 
         'DNI':[23000000, 12389100, 99999, 1001,30406011]}

import pandas as pd

df = pd.DataFrame(datos)

print(df)

            alumno  primer parcial  segundo parcial observaciones       DNI
0           Zutano               7               10       ninguna  23000000
1          Mengano               8                9         libre  12389100
2             Pepe               7                4       ninguna     99999
3  Fulanito, Cosme               4               10         libre      1001
4            Maria              10               10        oyente  30406011


Vemos que las filas están identificadas con números (0,1,2,..). Esos números corresponden al índice (*index*). Podemos obtener las columnas y el índice de un dataframe como listas usando los siguientes métodos:

## A partir de un archivo: