# Pandas

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [15]:
mu, sigma = 2, 5
data = np.random.normal(mu, sigma, size = [20, 5])

df = pd.DataFrame(data, columns = ["V","W", "X","Y", "Z"])

In [16]:
# . head() nos muestra las primeras filas de nuestro data frame, o el número que le indiquemos
df.head(2)

Unnamed: 0,V,W,X,Y,Z
0,-1.921364,7.774807,3.420953,-0.27029,2.332086
1,6.110957,5.785746,22.957041,1.530388,9.112682


In [17]:
# .tail() para ver las últimas 5 filas, por defualt, o el numero que le digamos
df.tail(6)

Unnamed: 0,V,W,X,Y,Z
14,-4.348639,0.771672,-3.797982,-4.44356,3.011023
15,0.811714,6.057448,-6.667536,9.60928,8.112927
16,-5.586824,0.435146,6.480193,4.254619,7.44894
17,-1.467563,-3.194949,10.88942,-0.220406,1.982833
18,4.03789,9.591682,-7.823797,-4.822252,-3.646104
19,8.292986,5.586109,5.377245,-2.520193,4.383537


Los resultados de las expresiones siempre regresan un booleano

- podemos usar expresiones en nuestro data frame

In [18]:
df > 0

Unnamed: 0,V,W,X,Y,Z
0,False,True,True,False,True
1,True,True,True,True,True
2,False,True,False,True,False
3,True,True,True,True,True
4,True,True,True,True,False
5,True,False,True,True,False
6,True,False,True,True,False
7,False,True,True,False,True
8,False,True,False,True,True
9,True,False,True,False,True


In [21]:
# evaluar la expresión dentro de la función 
df[df > 0]   # cuando la expresion es falsa nos regresa un nan

Unnamed: 0,V,W,X,Y,Z
0,,7.774807,3.420953,,2.332086
1,6.110957,5.785746,22.957041,1.530388,9.112682
2,,1.863995,,0.397762,
3,4.587042,7.058987,12.416775,12.907335,3.524412
4,3.340834,7.060669,6.441795,1.751106,
5,5.794747,,6.430887,4.967552,
6,3.526674,,8.822706,10.772941,
7,,2.577812,4.760159,,7.16932
8,,0.768943,,9.204453,8.072538
9,1.537981,,9.195997,,5.639284


In [22]:
# & = and
df[(df > 0) & (df < 2)]

Unnamed: 0,V,W,X,Y,Z
0,,,,,
1,,,,1.530388,
2,,1.863995,,0.397762,
3,,,,,
4,,,,1.751106,
5,,,,,
6,,,,,
7,,,,,
8,,0.768943,,,
9,1.537981,,,,


In [31]:
# or = |  --> realizar un sclicing sobre el data frame
df2 = df[(df > 0) | (df < -5)][["W", "X"]]
df2

Unnamed: 0,W,X
0,7.774807,3.420953
1,5.785746,22.957041
2,1.863995,
3,7.058987,12.416775
4,7.060669,6.441795
5,,6.430887
6,,8.822706
7,2.577812,4.760159
8,0.768943,
9,-12.903972,9.195997


In [33]:
df.columns # --> regresa una lista con el nombre de las columnas

Index(['V', 'W', 'X', 'Y', 'Z'], dtype='object')

In [35]:
# para ver el índice del data frame, lo regresa como range
df.index

RangeIndex(start=0, stop=20, step=1)

In [37]:
# regresar el índice como una lista
df.index.to_list()

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

In [39]:
newdf = pd.DataFrame()

In [41]:
# está vacio ?? --> regresa un booleano
newdf.empty

True

In [42]:
newdf = df[df["X"] > 100]
newdf.empty

True

In [45]:
df = pd.DataFrame({
    "A" : [7, 8, -6, 8],
    "B" : [12, np.nan, 1, np.nan],
    "C" : [4, np.nan, np.nan, np.nan],
    "D" : [4, np.nan, -2, -10]})

df

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
1,8,,,
2,-6,1.0,,-2.0
3,8,,,-10.0


In [54]:
# para agregar filas [valor]--> nombre del índice
df.loc[10] = [5, 8, 12, -7]
df

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
1,8,,,
2,-6,1.0,,-2.0
3,8,,,-10.0
4,5,8.0,12.0,-7.0
10,5,8.0,12.0,-7.0


In [50]:
# .isnull() o .isna() --> para identificar los valores nan, regresa un booleano
df.isnull(), df.isna()

(       A      B      C      D
 0  False  False  False  False
 1  False   True   True   True
 2  False  False   True  False
 3  False   True   True  False
 4  False  False  False  False,
        A      B      C      D
 0  False  False  False  False
 1  False   True   True   True
 2  False  False   True  False
 3  False   True   True  False
 4  False  False  False  False)

In [53]:
# si queremos contar los nan, el primero otorga la suma por columnas
df.isna().sum().sum()

np.int64(6)

In [59]:
# para quitar los nan
df.dropna(axis = 0, thresh = 2, inplace = True)

axis  = 0 --> filas | axis =1 --> columnas

thresh --> cantidad de nan que se toleran

In [60]:
df

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
2,-6,1.0,,-2.0
3,8,,,-10.0
4,5,8.0,12.0,-7.0
10,5,8.0,12.0,-7.0


In [61]:
# para reemplazar los nan
df.fillna(value = "otra cosa")

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
2,-6,1.0,otra cosa,-2.0
3,8,otra cosa,otra cosa,-10.0
4,5,8.0,12.0,-7.0
10,5,8.0,12.0,-7.0


In [62]:
df.fillna(value = df.mean())

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
2,-6,1.0,9.333333,-2.0
3,8,7.25,9.333333,-10.0
4,5,8.0,12.0,-7.0
10,5,8.0,12.0,-7.0


In [63]:
df.mean() # medias por columnas

A    3.800000
B    7.250000
C    9.333333
D   -4.400000
dtype: float64

In [64]:
df.mean(axis = 1) #medias por filas

0     6.750000
2    -2.333333
3    -1.000000
4     4.500000
10    4.500000
dtype: float64

In [65]:
df["C"].fillna(value = df["C"].mean())

0      4.000000
2      9.333333
3      9.333333
4     12.000000
10    12.000000
Name: C, dtype: float64

In [67]:
df.loc[3].fillna(value = df.loc[3].min())

A     8.0
B   -10.0
C   -10.0
D   -10.0
Name: 3, dtype: float64