# Módulo IV: Pandas I

## Tabla de Contenidos:
* [Series y DataFrames](#first-bullet)
* [Filtrado](#second-bullet)
* [Ordenación](#third-bullet)
* [Estadísticos](#fourth-bullet)

## Capítulo 1: Series y DataFrames <a class="anchor" id="first-bullet"></a>


In [2]:
import pandas as pd
import numpy as np

La librería Pandas sirve para trabajar y transformar DataFrames y es el centro del resto de librerías de ML y Data Science en Python. Dentro de Pandas hay 2 objetos fundamentales: Series y DataFrames.

Una Serie es un objeto que contiene una secuencia unidimensional de valores del mismo tipo (tipo ndarray de numpy) y un array asociado que contiene el índice de los datos

In [7]:
obj = pd.Series([4,7,-5,3])
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


El array de valores se encuentra en **.array** y el índice en **.index**

In [8]:
print(obj.array,"\n")
print(obj.index, "\n")

<NumpyExtensionArray>
[4, 7, -5, 3]
Length: 4, dtype: int64 

RangeIndex(start=0, stop=4, step=1) 



Podemos extraer los valores usando el índice con el indexing **[ ]**

In [9]:
obj = pd.Series([4, 7, -5, 3], index = ["a", "b", "c", "d"])

print(obj["a"])
print(obj[["a","b", "d"]])

4
a    4
b    7
d    3
dtype: int64


También se puede hacer operaciones de numpy en las series

In [12]:
print(np.exp(obj), "\n")
print(np.sqrt(obj), "\n")
print(obj ** 2, "\n")

print("a" in obj, "\n")
print("f" in obj, "\n")

a      54.598150
b    1096.633158
c       0.006738
d      20.085537
dtype: float64 

a    2.000000
b    2.645751
c         NaN
d    1.732051
dtype: float64 

a    16
b    49
c    25
d     9
dtype: int64 

True 

False 



  result = getattr(ufunc, method)(*inputs, **kwargs)


Una series puede convertirse en un diccionary usando el método **to_dict( )**

In [14]:
obj_dict = obj.to_dict()
print(obj_dict)

{'a': 4, 'b': 7, 'c': -5, 'd': 3}


También se puede crear una Serie en base a un diccionario

In [15]:
obj = pd.Series(obj_dict)
print(obj)

a    4
b    7
c   -5
d    3
dtype: int64


## Capítulo 2: DataFrame <a class="anchor" id="second-bullet"></a>


Un dataframe se contstruye de forma similar con la función **pd.DataFrame( )**

In [39]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
            "year": [2000, 2001, 2002, 2001, 2002, 2003],
            "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)

frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Se puede acceder a los valores de una columna usando el indexing **[ ]** o con el **.col_name**

In [22]:
print(frame["state"], "\n")
print(frame.state)

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object 

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object


Para acceder al nombre de las columnas usamos **.columns**

In [24]:
frame.columns

Index(['state', 'year', 'pop'], dtype='object')

Podemos transformar el DataFrame a un array de numpy o a un diccionario usando **to_numpy( )** o **to_dict( )** respectivamente

In [26]:
print(frame.to_dict(), "\n")
print(frame.to_numpy())

{'state': {0: 'Ohio', 1: 'Ohio', 2: 'Ohio', 3: 'Nevada', 4: 'Nevada', 5: 'Nevada'}, 'year': {0: 2000, 1: 2001, 2: 2002, 3: 2001, 4: 2002, 5: 2003}, 'pop': {0: 1.5, 1: 1.7, 2: 3.6, 3: 2.4, 4: 2.9, 5: 3.2}} 

[['Ohio' 2000 1.5]
 ['Ohio' 2001 1.7]
 ['Ohio' 2002 3.6]
 ['Nevada' 2001 2.4]
 ['Nevada' 2002 2.9]
 ['Nevada' 2003 3.2]]


Para acceder a las columnas usaremos **.loc["index"]** en caso de usar el índice o **.iloc["número"]** en caso de usar el número correspoondiente a dicha fila. En este caso como el índice es {0,1,2...} es lo mismo.

In [31]:
print(frame.loc[1], "\n") # Acceder a la fila con índice "1"
print(frame.iloc[1])      # Acceder a la segunda fila

state    Ohio
year     2001
pop       1.7
Name: 1, dtype: object 

state    Ohio
year     2001
pop       1.7
Name: 1, dtype: object


Podemos crear o modificar columnas con **frame["col_name"] = data**

In [40]:
frame["debt"] = np.arange(6) * 100

frame

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,0
1,Ohio,2001,1.7,100
2,Ohio,2002,3.6,200
3,Nevada,2001,2.4,300
4,Nevada,2002,2.9,400
5,Nevada,2003,3.2,500


Podemos cambiar el orden del índice usando el método **.reindex**

In [43]:
frame = frame.reindex([2,3,4,5,1,0])

frame

Unnamed: 0,state,year,pop,debt
2,Ohio,2002,3.6,200
3,Nevada,2001,2.4,300
4,Nevada,2002,2.9,400
5,Nevada,2003,3.2,500
1,Ohio,2001,1.7,100
0,Ohio,2000,1.5,0


Para descartar filas o columnas usaremos el método **.drop( )**


In [44]:
frame.drop(2)

Unnamed: 0,state,year,pop,debt
3,Nevada,2001,2.4,300
4,Nevada,2002,2.9,400
5,Nevada,2003,3.2,500
1,Ohio,2001,1.7,100
0,Ohio,2000,1.5,0


In [45]:
frame.drop([2,3,4])

Unnamed: 0,state,year,pop,debt
5,Nevada,2003,3.2,500
1,Ohio,2001,1.7,100
0,Ohio,2000,1.5,0


In [48]:
frame.drop("state", axis = 1) # axis = 0 : fila, axis = 1 : columna

Unnamed: 0,year,pop,debt
2,2002,3.6,200
3,2001,2.4,300
4,2002,2.9,400
5,2003,3.2,500
1,2001,1.7,100
0,2000,1.5,0


## Capítulo 2: Filtrado <a class="anchor" id="second-bullet"></a>


El filtrado en Series funciona igual que en ndarrays de Numpy salvo que además puedes usar el índice 

In [49]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [53]:
print(obj["b"], "\n") # usando el índice

print(obj[2:4], "\n") # usando slicing

print(obj[["b", "a", "c"]], "\n") # usando varios índices

print(obj[obj > 2], "\n") # usando condicionales

print(obj["a":"d"])    # usando slicing del índice

1.0 

c    2.0
d    3.0
dtype: float64 

b    1.0
a    0.0
c    2.0
dtype: float64 

d    3.0
dtype: float64 

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64


En el caso de DataFrames, los condicionales proporciona un DataFrame de booleanos que puede ser usado para filtrar  ciertos valores

In [66]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
            index=["Ohio", "Colorado", "Utah", "New York"],
            columns=["one", "two", "three", "four"])

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [67]:
data["two"] > 5  # valores de la columna "two" mayores de 5

Ohio        False
Colorado    False
Utah         True
New York     True
Name: two, dtype: bool

In [68]:
data[data["two"] > 5] # filas con un valor mayo que 5 en la columna "two"

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [69]:
data[data["two"] > 5]["two"] # columna "two" con valores mayores que 5

Utah         9
New York    13
Name: two, dtype: int64

In [70]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [71]:
data[data < 5] = 0   # Todos los valores mayores que 5 son igualados a 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


También podemos usar varios condicionales a la vez con los símbolos clave  **& (and)** y **| (or)**

In [88]:
data[(data["two"] > 3) & (data["three"] < 12)] # usando & (AND)

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
Utah,8,9,10,11


In [89]:
data[(data["two"] > 3) | (data["three"] < 12)] # usando | (OR)

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


## Capítulo 3: Ordenación <a class="anchor" id="third-bullet"></a>


Para ordenar los valores por índice usaremos el método **.sort_index( )**

In [91]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d", "a", "b", "c"])

frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [92]:
frame.sort_index() # ordena el índice en orden alfabético

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [93]:
frame.sort_index(axis = "columns") # ordena las columnas en orden alfabético

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [94]:
frame.sort_index(axis="columns", ascending=False) # orden descendente

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Para ordenar los valores usaremos el método **.sort_values( )**

In [95]:
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})

frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [96]:
frame.sort_values("b") # ordena los valores de la columna "b"

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [97]:
frame.sort_values(["a", "b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


También podemos obtener el ranking usando el método **.rank( )**

In [103]:
frame.rank()

Unnamed: 0,b,a
0,3.0,1.5
1,4.0,3.5
2,1.0,1.5
3,2.0,3.5


In [104]:
frame.rank(axis = "columns")

Unnamed: 0,b,a
0,2.0,1.0
1,2.0,1.0
2,1.0,2.0
3,2.0,1.0


## Capítulo 4: Estadísticos <a class="anchor" id="fourth-bullet"></a>

Pandas viene integrado con un montón de métodos para realizar estadísticos básicos:

| Método | Descripción |
| --- | --- |
| count | Número de valores no nulos |
| describe | Estadísticos Básicos |
| sum | Suma de valores |
| mean | Media de valores |
| median | Valor mediano |
| prod | Producto de todos los valores |
| var | Varianza |
| std | Desviación Estnñandar |
| cumsum | Suma Acumulativa |
| quantile | cuantíles |

In [3]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
            index=["Ohio", "Colorado", "Utah", "New York"],
            columns=["one", "two", "three", "four"])

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [4]:
data.mean() # Media de las columnas

one      6.0
two      7.0
three    8.0
four     9.0
dtype: float64

In [5]:
data.mean(axis = 1) # Media de las filas

Ohio         1.5
Colorado     5.5
Utah         9.5
New York    13.5
dtype: float64

In [6]:
data.cumsum()

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,6,8,10
Utah,12,15,18,21
New York,24,28,32,36


In [7]:
data.median(axis = "columns")

Ohio         1.5
Colorado     5.5
Utah         9.5
New York    13.5
dtype: float64

In [9]:
data.cumsum().std()

one      10.583005
two      11.846237
three    13.114877
four     14.387495
dtype: float64

In [10]:
data.max()

one      12
two      13
three    14
four     15
dtype: int64

In [13]:
data.count()

one      4
two      4
three    4
four     4
dtype: int64

In [14]:
data.describe()

Unnamed: 0,one,two,three,four
count,4.0,4.0,4.0,4.0
mean,6.0,7.0,8.0,9.0
std,5.163978,5.163978,5.163978,5.163978
min,0.0,1.0,2.0,3.0
25%,3.0,4.0,5.0,6.0
50%,6.0,7.0,8.0,9.0
75%,9.0,10.0,11.0,12.0
max,12.0,13.0,14.0,15.0
