# Módulo Pandas

Docente: Mg. Aldo Lezama Benavides

In [1]:
import pandas as pd

##### https://pandas.pydata.org/pandas-docs/stable/


###  SERIES

##### https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [2]:
import numpy as np
array = np.random.randint(1, 50, 5)
print(array)

# Creamos series desde un array de numpy
series = pd.Series(array)
print(series)

[42  2 47 26 26]
0    42
1     2
2    47
3    26
4    26
dtype: int32


In [3]:
## Series funciones
print (type(series.values))
print (type(series.index))
print (series.values)
print (series.index)

## podemos cambiar el índice
series.index=[list("abcde")]
print (series)

<class 'numpy.ndarray'>
<class 'pandas.core.indexes.range.RangeIndex'>
[42  2 47 26 26]
RangeIndex(start=0, stop=5, step=1)
a    42
b     2
c    47
d    26
e    26
dtype: int32


In [4]:
series.head(1)

a    42
dtype: int32

In [5]:
# indexación
print(series[0])
print(series['a'])
print(series[1:3])
print(series[['e','d']])

42
42
b     2
c    47
dtype: int32
e    26
d    26
dtype: int32


In [6]:
series

a    42
b     2
c    47
d    26
e    26
dtype: int32

In [7]:
series[:]

a    42
b     2
c    47
d    26
e    26
dtype: int32

In [8]:
## transformaciones
data = {'a' : 0., 'b' : 1., 'c' : 2.}
serie1 = pd.Series(data)

In [9]:
data = [0,1,2]
serie1 = pd.Series(data)

In [10]:
serie1

0    0
1    1
2    2
dtype: int64

In [11]:
data = {'a' : 0., 'b' : 1., 'c' : 2.}
data?

[1;31mType:[0m        dict
[1;31mString form:[0m {'a': 0.0, 'b': 1.0, 'c': 2.0}
[1;31mLength:[0m      3
[1;31mDocstring:[0m  
dict() -> new empty dictionary
dict(mapping) -> new dictionary initialized from a mapping object's
    (key, value) pairs
dict(iterable) -> new dictionary initialized as if via:
    d = {}
    for k, v in iterable:
        d[k] = v
dict(**kwargs) -> new dictionary initialized with the name=value pairs
    in the keyword argument list.  For example:  dict(one=1, two=2)


In [12]:
serie1>0

0    False
1     True
2     True
dtype: bool

In [13]:
serie1[serie1>0]

1    1
2    2
dtype: int64

In [14]:
serie2 = pd.Series(["Karim Benzema", "Fede Valverde", "Sergio Ramos", "Kylian Mbappe"])
serie2 = serie2.str.split(expand=True)
serie2.columns = ["nombre", "apellido"]
serie2.sort_values(by=["apellido"])

Unnamed: 0,nombre,apellido
0,Karim,Benzema
3,Kylian,Mbappe
2,Sergio,Ramos
1,Fede,Valverde


In [15]:
s1 = pd.Series(np.random.randn(500))
s2 = pd.Series(np.random.randn(500))

print (s1.corr(s2))
print (s1.cov(s2))

-0.01727279021350712
-0.0168638454390652


### Dataframes

In [16]:
# desde listas
data = [['lucia', 10], ['marta', 15], ['ana', 14]] 
df0 = pd.DataFrame(data, columns = ['0-nombre', '1-edad']) 
df0

Unnamed: 0,0-nombre,1-edad
0,lucia,10
1,marta,15
2,ana,14


In [17]:
nombre = ['lucia', 'marta', 'ana']  
edad = [10, 15, 14]    
lista = list(zip(nombre, edad))     
df1 = pd.DataFrame(lista, columns = ['0-nombre', '1-edad'])  
df1

Unnamed: 0,0-nombre,1-edad
0,lucia,10
1,marta,15
2,ana,14


In [18]:
# desde dicconarios 
data = {'1-edad':[10, 15, 14] , '0-nombre':['lucia', 'marta', 'ana']} 
df2 = pd.DataFrame(data) 
df2

Unnamed: 0,1-edad,0-nombre
0,10,lucia
1,15,marta
2,14,ana


In [19]:
# desde arrays numpy 
data = np.array([['lucia',10], ['marta',15],['ana',14]]) 
df3 = pd.DataFrame(data,columns = ['0-nombre','1-edad']) 
df3

Unnamed: 0,0-nombre,1-edad
0,lucia,10
1,marta,15
2,ana,14


In [20]:
## 2 o más series hacen un Dataframe
nombre = pd.Series(['lucia','marta','ana'])
edad = pd.Series([10,15,14])

df4 = pd.DataFrame({'0-nombre':nombre, '1-edad':edad})
df4

Unnamed: 0,0-nombre,1-edad
0,lucia,10
1,marta,15
2,ana,14


In [21]:
df4['0-nombre']

0    lucia
1    marta
2      ana
Name: 0-nombre, dtype: object

In [22]:
# indexado
df4.iloc[0]

0-nombre    lucia
1-edad         10
Name: 0, dtype: object

In [23]:
df4['1-edad']>10

0    False
1     True
2     True
Name: 1-edad, dtype: bool

In [24]:
df4[df4['1-edad']>10]

Unnamed: 0,0-nombre,1-edad
1,marta,15
2,ana,14


In [25]:
list(df4.index)

[0, 1, 2]

In [26]:
df4.iloc[df4.index[1]]

0-nombre    marta
1-edad         15
Name: 1, dtype: object

In [27]:
#cambiamos el índice
indice = pd.Series(['usuario1','usuario2','usuario3'])
df4.set_index(indice,inplace=True)

In [28]:
df4

Unnamed: 0,0-nombre,1-edad
usuario1,lucia,10
usuario2,marta,15
usuario3,ana,14


In [29]:
df4.iloc[0]

0-nombre    lucia
1-edad         10
Name: usuario1, dtype: object

In [30]:
df4.loc['usuario1']

0-nombre    lucia
1-edad         10
Name: usuario1, dtype: object