# Estructuras de datos y funciones básicas de Pandas

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Crearemos una serie y un data frame de prueba
index = pd.date_range("1/1/2000", periods=8)

In [3]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

In [4]:
s

a   -0.149475
b   -2.088831
c   -0.097947
d    1.459703
e   -0.121493
dtype: float64

In [5]:
df = pd.DataFrame(np.random.randn(8, 3), index=index, columns=["A", "B", "C"])

In [6]:
df

Unnamed: 0,A,B,C
2000-01-01,2.100625,-0.645209,-0.233882
2000-01-02,-1.051007,1.460344,0.90558
2000-01-03,0.019422,0.670598,-0.789713
2000-01-04,-0.712829,0.879717,0.114419
2000-01-05,-0.246108,0.93352,0.040339
2000-01-06,-1.793432,0.877791,-0.047988
2000-01-07,-0.537691,-0.47575,2.091303
2000-01-08,-1.660929,-1.642528,0.348669


## Head y tail

#### Para ver una pequeña muestra de un objeto Series o DataFrame, utilice los métodos head() y tail(). El número predeterminado de elementos para mostrar es cinco, pero puede pasar un número personalizado, colocándolo entre paréntesis.

In [7]:
# Crearemos una tabla de ejemplo

long_series = pd.Series(np.random.randn(1000))

In [8]:
long_series.head(10) #Muestra los primeros 10 registros

0    0.131691
1   -0.663257
2   -0.184171
3   -3.089500
4   -0.974472
5    0.929558
6    0.157209
7   -1.169983
8    0.095219
9   -0.829434
dtype: float64

In [9]:
long_series.tail(7) #Muestra los últimos 7 registros

993   -0.949446
994   -1.794043
995   -0.919420
996    1.117798
997    0.166196
998    0.235084
999   -0.812262
dtype: float64

## Missing data y operaciones con valores de relleno

#### En Series y DataFrame, las funciones aritméticas tienen la opción de ingresar un valor de relleno, es decir, un valor para sustituir cuando falta como máximo uno de los valores en una ubicación

In [10]:
df = pd.DataFrame(
    {
        "one": pd.Series(np.random.randn(3), index=["a", "b", "c"]),
        "two": pd.Series(np.random.randn(4), index=["a", "b", "c", "d"]),
        "three": pd.Series(np.random.randn(3), index=["b", "c", "d"]),
    }
)


In [11]:
df

Unnamed: 0,one,two,three
a,1.373765,0.402174,
b,-1.819667,-0.236026,0.458196
c,-1.046088,0.84927,0.430566
d,,1.146007,0.156617


In [12]:
df2 = pd.DataFrame(
    {
        "one": pd.Series(np.random.randn(3), index=["a", "b", "c"]),
        "two": pd.Series(np.random.randn(4), index=["a", "b", "c", "d"]),
        "three": pd.Series(np.random.randn(3), index=["b", "c", "d"]),
    }
)


In [13]:
df2

Unnamed: 0,one,two,three
a,-0.524729,-0.196648,
b,-0.062537,0.245133,0.669171
c,-0.987856,0.155637,0.665712
d,,0.255869,-0.96209


In [14]:
df + df2

Unnamed: 0,one,two,three
a,0.849036,0.205526,
b,-1.882204,0.009107,1.127367
c,-2.033944,1.004907,1.096278
d,,1.401876,-0.805473


In [15]:
df.add(df2, fill_value=0)

Unnamed: 0,one,two,three
a,0.849036,0.205526,
b,-1.882204,0.009107,1.127367
c,-2.033944,1.004907,1.096278
d,,1.401876,-0.805473


## Comparaciones flexibles

#### Series y DataFrame tienen los métodos de comparación binaria eq, ne, lt, gt, le y ge cuyo comportamiento es análogo a las operaciones aritméticas binarias descritas anteriormente

In [16]:
df.gt(df2)

Unnamed: 0,one,two,three
a,True,True,False
b,False,False,False
c,False,True,False
d,False,True,True


In [17]:
df2.ne(df)

Unnamed: 0,one,two,three
a,True,True,True
b,True,True,True
c,True,True,True
d,True,True,True


## Reducciones booleanas

#### Puede aplicar las reducciones: empty, any(), all(), and bool() para proporcionar una forma de resumir un resultado booleano.

In [18]:
(df > 0).all()

one      False
two      False
three    False
dtype: bool

In [19]:
(df > 0).any()

one      True
two      True
three    True
dtype: bool

## Comparar si los objetos son equivalentes

In [20]:
df + df == df * 2

Unnamed: 0,one,two,three
a,True,True,False
b,True,True,True
c,True,True,True
d,False,True,True


In [21]:
(df + df == df * 2).all()

one      False
two       True
three    False
dtype: bool

## Combinar conjuntos de datos superpuestos - combine_first()

#### Un problema que surge ocasionalmente es la combinación de dos conjuntos de datos similares donde los valores de uno son preferibles al otro. Como tal, nos gustaría combinar dos objetos DataFrame donde los valores faltantes en un DataFrame se llenen condicionalmente con valores etiquetados como del otro DataFrame. La función que implementa esta operación es combine_first(), que ilustramos:

In [22]:
df1 = pd.DataFrame(
    {"A": [1.0, np.nan, 3.0, 5.0, np.nan], "B": [np.nan, 2.0, 3.0, np.nan, 6.0]}
)


In [23]:
df2 = pd.DataFrame(
    {
        "A": [5.0, 2.0, 4.0, np.nan, 3.0, 7.0],
        "B": [np.nan, np.nan, 3.0, 4.0, 6.0, 8.0],
    }
)

In [24]:
df1

Unnamed: 0,A,B
0,1.0,
1,,2.0
2,3.0,3.0
3,5.0,
4,,6.0


In [25]:
df2

Unnamed: 0,A,B
0,5.0,
1,2.0,
2,4.0,3.0
3,,4.0
4,3.0,6.0
5,7.0,8.0


In [26]:
df1.combine_first(df2) #La tabla se completa de acuerdo a los valores de df2, es como una especie de FULL JOIN

Unnamed: 0,A,B
0,1.0,
1,2.0,2.0
2,3.0,3.0
3,5.0,4.0
4,3.0,6.0
5,7.0,8.0


## Estadística descriptiva

##### Existe una gran cantidad de métodos para calcular estadísticas descriptivas y otras operaciones relacionadas en Series, DataFrame. La mayoría de estos son agregaciones (por lo tanto, producen un resultado de menor dimensión) como sum(), mean() y quantile(), pero algunos de ellos, como cumsum() y cumprod(), producen un objeto del mismo tamaño.

In [27]:
# Method                                             Description

# count                           Number of non-NA values
# describe                        Compute set of summary statistics for Series or each DataFrame column
# min, max                        Compute minimum and maximum values
# argmin, argmax                  Compute index locations (integers) at which minimum or maximum value obtained, respectively
# idxmin, idxmax                  Compute index values at which minimum or maximum value obtained, respectively
# quantile                        Compute sample quantile ranging from 0 to 1
# sum                             Sum of values
# mean                            Mean of values
# median                          Arithmetic median (50% quantile) of values
# mad                             Mean absolute deviation from mean value
# var                             Sample variance of values
# std                             Sample standard deviation of values
# skew                            Sample skewness (3rd moment) of values
# kurt                            Sample kurtosis (4th moment) of values
# cumsum                          Cumulative sum of values
# cummin, cummax                  Cumulative minimum or maximum of values, respectively
# cumprod                         Cumulative product of values
# diff                            Compute 1st arithmetic difference (useful for time series)
# pct_change                      Compute percent changes

## Todos estos métodos tienen una opción skipna que indica si se deben excluir 
## los datos faltantes (Verdadero de forma predeterminada):

In [28]:
df

Unnamed: 0,one,two,three
a,1.373765,0.402174,
b,-1.819667,-0.236026,0.458196
c,-1.046088,0.84927,0.430566
d,,1.146007,0.156617


In [29]:
df.mean()

one     -0.497330
two      0.540356
three    0.348460
dtype: float64

In [30]:
df.std()

one      1.665939
two      0.601139
three    0.166714
dtype: float64

In [31]:
df.describe()

Unnamed: 0,one,two,three
count,3.0,4.0,3.0
mean,-0.49733,0.540356,0.34846
std,1.665939,0.601139,0.166714
min,-1.819667,-0.236026,0.156617
25%,-1.432878,0.242624,0.293591
50%,-1.046088,0.625722,0.430566
75%,0.163839,0.923454,0.444381
max,1.373765,1.146007,0.458196


In [32]:
df.var()

one      2.775354
two      0.361368
three    0.027794
dtype: float64

In [33]:
df.sum(0, skipna=False)

one           NaN
two      2.161426
three         NaN
dtype: float64

In [34]:
# Tenga en cuenta que métodos como cumsum() y cumprod() conservan la ubicación de los valores de NaN

In [35]:
df.cumsum()

Unnamed: 0,one,two,three
a,1.373765,0.402174,
b,-0.445902,0.166148,0.458196
c,-1.49199,1.015418,0.888762
d,,2.161426,1.045379


In [36]:
df.cumprod()

Unnamed: 0,one,two,three
a,1.373765,0.402174,
b,-2.499795,-0.094924,0.458196
c,2.615006,-0.080616,0.197284
d,,-0.092386,0.030898


## Resumir datos: describe()

#### Hay una función conveniente "describe()" que calcula una variedad de estadísticas de resumen sobre una serie o las columnas de un marco de datos (excluyendo NA, por supuesto).

In [37]:
series = pd.Series(np.random.randn(1000))

In [38]:
series[::2] = np.nan

In [39]:
series.describe()

count    500.000000
mean      -0.069895
std        1.014747
min       -2.905009
25%       -0.654946
50%       -0.068579
75%        0.549425
max        2.856241
dtype: float64

In [40]:
frame = pd.DataFrame(np.random.randn(1000, 5), columns=["a", "b", "c", "d", "e"])

In [41]:
frame.iloc[::2] = np.nan

In [42]:
frame.describe()

Unnamed: 0,a,b,c,d,e
count,500.0,500.0,500.0,500.0,500.0
mean,0.086793,-0.021198,0.058771,0.0399,-0.032962
std,1.004989,0.953413,0.970721,1.010059,1.037591
min,-2.770872,-3.113364,-2.924929,-3.087208,-2.965665
25%,-0.570695,-0.706129,-0.61337,-0.617064,-0.714305
50%,0.087617,-0.001545,0.016993,0.092225,-0.034005
75%,0.765684,0.618998,0.710893,0.790557,0.688809
max,2.996776,2.787886,3.424747,3.223697,3.587208


In [43]:
## Puede seleccionar percentiles específicos para incluir en la salida

In [44]:
series.describe(percentiles=[0.05, 0.25, 0.75, 0.95])

count    500.000000
mean      -0.069895
std        1.014747
min       -2.905009
5%        -1.747898
25%       -0.654946
50%       -0.068579
75%        0.549425
95%        1.591193
max        2.856241
dtype: float64

In [45]:
# Para un objeto Serie no numérico, describe() proporcionará un resumen simple 
# de la cantidad de valores únicos y los valores que ocurren con mayor frecuencia.

In [46]:
s = pd.Series(["a", "a", "b", "b", "a", "a", np.nan, "c", "d", "a"])

In [47]:
s.describe()

count     9
unique    4
top       a
freq      5
dtype: object

In [48]:
# En el caso de un data frame, con variables númericas y categóricas, la función describe() se aplicará solo a las
# variables númericas

In [49]:
frame = pd.DataFrame({"a": ["Yes", "Yes", "No", "No"], "b": range(4)})

In [50]:
frame.describe()

Unnamed: 0,b
count,4.0
mean,1.5
std,1.290994
min,0.0
25%,0.75
50%,1.5
75%,2.25
max,3.0


In [51]:
# Este comportamiento puede alterarse utilizando los argumentos:  include/exclude con "all"

In [52]:
frame.describe(include=["object"])

Unnamed: 0,a
count,4
unique,2
top,Yes
freq,2


In [53]:
frame.describe(include="all") # Utilizando "all" cada columna tendrá su propio conteo individual

Unnamed: 0,a,b
count,4,4.0
unique,2,
top,Yes,
freq,2,
mean,,1.5
std,,1.290994
min,,0.0
25%,,0.75
50%,,1.5
75%,,2.25


## Índice de valores mínimos/máximos - idxmin() e idxmax(

#### Las funciones idxmin() e idxmax() en Series y DataFrame calculan las etiquetas de índice con los valores correspondientes mínimo y máximo

In [54]:
s1 = pd.Series(np.random.randn(10))

In [55]:
s1

0   -0.815729
1   -0.503026
2   -0.011091
3   -0.308484
4   -1.340635
5   -0.180058
6    0.041543
7   -0.391075
8   -0.420189
9    0.734003
dtype: float64

In [56]:
s1.idxmin(), s1.idxmax() #Nos indica la ubicación de la fila (índice) donde están esos valores

(4, 9)

In [57]:
df1 = pd.DataFrame(np.random.randn(5, 3), columns=["A", "B", "C"])

In [58]:
df1

Unnamed: 0,A,B,C
0,-1.222633,-0.417264,-0.923896
1,-0.047245,-1.054018,-1.11811
2,1.62433,1.133905,-2.036237
3,0.915101,-0.275596,-0.477071
4,1.148893,0.571441,-1.070435


In [59]:
df1.idxmin(axis=0), df1.idxmax(axis=1) #Nos indica la ubicación de la fila (índice) donde están esos valores en data frame

(A    0
 B    1
 C    2
 dtype: int64,
 0    B
 1    A
 2    A
 3    A
 4    A
 dtype: object)

## Conteo de valores, histograma / moda - value_counts() o mode()

#### El método de la serie value_counts() y la función de nivel superior calcula un histograma de una matriz de valores 1D. También se puede usar como una función en arreglos regulares.

In [60]:
data = np.random.randint(0, 9, size=50)

In [61]:
data

array([4, 8, 6, 2, 5, 7, 3, 7, 6, 0, 4, 4, 1, 6, 7, 3, 8, 5, 2, 4, 4, 4,
       1, 8, 3, 4, 1, 8, 5, 3, 7, 2, 3, 5, 3, 7, 6, 2, 1, 7, 4, 2, 3, 8,
       8, 8, 5, 4, 3, 8])

In [62]:
s = pd.Series(data)

In [63]:
s.value_counts() #Cuenta cuántas veces se repite cada número

4    9
8    8
3    8
7    6
2    5
5    5
6    4
1    4
0    1
dtype: int64

In [64]:
pd.value_counts(data)

4    9
8    8
3    8
7    6
2    5
5    5
6    4
1    4
0    1
dtype: int64

In [65]:
# El método value_counts() se puede usar para contar combinaciones en varias columnas. 
# De forma predeterminada, se utilizan todas las columnas, pero se puede seleccionar 
# un subconjunto mediante el argumento "subset".

In [66]:
data = {"a": [1, 2, 3, 4], "b": ["x", "x", "y", "y"]}

In [67]:
data #la salida es un diccionario

{'a': [1, 2, 3, 4], 'b': ['x', 'x', 'y', 'y']}

In [68]:
frame = pd.DataFrame(data) #Ahora los transformamos a data frame

In [69]:
frame

Unnamed: 0,a,b
0,1,x
1,2,x
2,3,y
3,4,y


In [70]:
frame.value_counts() #Aqui el conteo se realiza en base a la combinación de las dos columnas

a  b
1  x    1
2  x    1
3  y    1
4  y    1
dtype: int64

In [71]:
# De manera similar, puede obtener los valores que ocurren con mayor frecuencia, es decir, el modo, 
# de los valores en una Serie o Data Frame

In [72]:
s5 = pd.Series([1, 1, 3, 3, 3, 5, 5, 7, 7, 7])

In [73]:
s5.mode()

0    3
1    7
dtype: int64

In [74]:
df5 = pd.DataFrame(
    {
        "A": np.random.randint(0, 7, size=50),
        "B": np.random.randint(-10, 15, size=50),
    }
)


In [75]:
df5.mode()

Unnamed: 0,A,B
0,0,-5.0
1,3,


## Discretización y cuantización - cut() y qcut()

#### Los valores continuos se pueden discretizar mediante las funciones cut() (contenedores basados en valores) y qcut() (contenedores basados en cuantiles de muestra)

In [76]:
arr = np.random.randn(20)

In [77]:
factor = pd.cut(arr, 4)

In [78]:
factor

[(-1.355, -0.531], (0.29, 1.11], (-1.355, -0.531], (1.11, 1.931], (-1.355, -0.531], ..., (-0.531, 0.29], (0.29, 1.11], (0.29, 1.11], (-0.531, 0.29], (1.11, 1.931]]
Length: 20
Categories (4, interval[float64, right]): [(-1.355, -0.531] < (-0.531, 0.29] < (0.29, 1.11] < (1.11, 1.931]]

In [79]:
factor = pd.cut(arr, [-5, -1, 0, 1, 5])

In [80]:
factor

[(-1, 0], (0, 1], (-5, -1], (1, 5], (-5, -1], ..., (0, 1], (0, 1], (0, 1], (0, 1], (1, 5]]
Length: 20
Categories (4, interval[int64, right]): [(-5, -1] < (-1, 0] < (0, 1] < (1, 5]]

In [81]:
arr = np.random.randn(30)

In [82]:
factor = pd.qcut(arr, [0, 0.25, 0.5, 0.75, 1]) # qcut() realiza los cortes en base a cuartiles

In [83]:
factor

[(-0.189, 0.276], (-0.674, -0.189], (-0.189, 0.276], (-0.674, -0.189], (-0.189, 0.276], ..., (-1.5519999999999998, -0.674], (-0.674, -0.189], (-1.5519999999999998, -0.674], (0.276, 3.055], (-1.5519999999999998, -0.674]]
Length: 30
Categories (4, interval[float64, right]): [(-1.5519999999999998, -0.674] < (-0.674, -0.189] < (-0.189, 0.276] < (0.276, 3.055]]

In [84]:
pd.value_counts(factor)

(-1.5519999999999998, -0.674]    8
(0.276, 3.055]                   8
(-0.674, -0.189]                 7
(-0.189, 0.276]                  7
dtype: int64

## Funciones

#### Para aplicar funciones deben tomarse en cuenta los objetos, porque a cada uno de ellos se le aplica un método diferente:

#### Tablewise Function Application: pipe()
#### Row or Column-wise Function Application: apply()
#### Aggregation API: agg() and transform()
#### Applying Elementwise Functions: applymap()

In [85]:
# DataFrames y Series se pueden pasar a funciones. Sin embargo, si es necesario llamar a la función en una cadena, 
# considere usar el método pipe().

In [86]:
def extract_city_name(df):
    """
    Chicago, IL -> Chicago for city_name column
    """
    df["city_name"] = df["city_and_code"].str.split(",").str.get(0)
    return df

In [87]:
def add_country_name(df, country_name=None):
    """
    Chicago -> Chicago-US for city_name column
    """
    col = "city_name"
    df["city_and_country"] = df[col] + country_name
    return df

In [88]:
df_p = pd.DataFrame({"city_and_code": ["Chicago, IL"]})

In [89]:
add_country_name(extract_city_name(df_p), country_name="US")

Unnamed: 0,city_and_code,city_name,city_and_country
0,"Chicago, IL",Chicago,ChicagoUS


In [90]:
# En el siguiente ejemplo se aplica la función "pipe()"

In [91]:
df_p.pipe(extract_city_name).pipe(add_country_name, country_name=" US")

Unnamed: 0,city_and_code,city_name,city_and_country
0,"Chicago, IL",Chicago,Chicago US


In [92]:
import statsmodels.formula.api as sm

In [93]:
raw_baseball_url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/baseball.csv"

In [94]:
bb = df = pd.read_csv(raw_baseball_url)

In [95]:
bb

Unnamed: 0,id,player,year,stint,team,lg,g,ab,r,h,...,rbi,sb,cs,bb,so,ibb,hbp,sh,sf,gidp
0,88641,womacto01,2006,2,CHN,NL,19,50,6,14,...,2.0,1.0,1.0,4,4.0,0.0,0.0,3.0,0.0,0.0
1,88643,schilcu01,2006,1,BOS,AL,31,2,0,1,...,0.0,0.0,0.0,0,1.0,0.0,0.0,0.0,0.0,0.0
2,88645,myersmi01,2006,1,NYA,AL,62,0,0,0,...,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0
3,88649,helliri01,2006,1,MIL,NL,20,3,0,0,...,0.0,0.0,0.0,0,2.0,0.0,0.0,0.0,0.0,0.0
4,88650,johnsra05,2006,1,NYA,AL,33,6,0,1,...,0.0,0.0,0.0,0,4.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,89525,benitar01,2007,2,FLO,NL,34,0,0,0,...,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0
96,89526,benitar01,2007,1,SFN,NL,19,0,0,0,...,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0
97,89530,ausmubr01,2007,1,HOU,NL,117,349,38,82,...,25.0,6.0,1.0,37,74.0,3.0,6.0,4.0,1.0,11.0
98,89533,aloumo01,2007,1,NYN,NL,87,328,51,112,...,49.0,3.0,0.0,27,30.0,5.0,2.0,0.0,3.0,13.0


In [96]:
(
    bb.query("h > 0")
    .assign(ln_h=lambda df: np.log(df.h))
    .pipe((sm.ols, "data"), "hr ~ ln_h + year + g + C(lg)")
    .fit()
    .summary()
)


0,1,2,3
Dep. Variable:,hr,R-squared:,0.685
Model:,OLS,Adj. R-squared:,0.665
Method:,Least Squares,F-statistic:,34.28
Date:,"Sun, 18 Sep 2022",Prob (F-statistic):,3.48e-15
Time:,20:10:02,Log-Likelihood:,-205.92
No. Observations:,68,AIC:,421.8
Df Residuals:,63,BIC:,432.9
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-8484.7720,4664.146,-1.819,0.074,-1.78e+04,835.780
C(lg)[T.NL],-2.2736,1.325,-1.716,0.091,-4.922,0.375
ln_h,-1.3542,0.875,-1.547,0.127,-3.103,0.395
year,4.2277,2.324,1.819,0.074,-0.417,8.872
g,0.1841,0.029,6.258,0.000,0.125,0.243

0,1,2,3
Omnibus:,10.875,Durbin-Watson:,1.999
Prob(Omnibus):,0.004,Jarque-Bera (JB):,17.298
Skew:,0.537,Prob(JB):,0.000175
Kurtosis:,5.225,Cond. No.,14900000.0


## Aplicación de función de fila o columna - apply()

#### Las funciones arbitrarias se pueden aplicar a lo largo de los ejes de un DataFrame usando el método apply(), que, al igual que los métodos de estadísticas descriptivas, toman un argumento de eje opcional

In [97]:
df = pd.DataFrame(np.random.randn(8, 3), index=index, columns=["A", "B", "C"])

In [98]:
df

Unnamed: 0,A,B,C
2000-01-01,-0.003422,-1.217435,0.098541
2000-01-02,1.5615,-0.251024,-0.074439
2000-01-03,-0.028803,-0.562881,0.512622
2000-01-04,0.614962,-1.267237,0.005199
2000-01-05,-1.000959,0.415417,0.40243
2000-01-06,-0.438208,0.538599,-0.832516
2000-01-07,1.907902,1.79724,1.978371
2000-01-08,0.800252,-0.550663,1.182858


In [99]:
df.apply(np.mean) #También df.apply("mean")

A    0.426653
B   -0.137248
C    0.409133
dtype: float64

In [100]:
df.apply(np.mean, axis=1) #También df.apply("mean", axis=1)

2000-01-01   -0.374106
2000-01-02    0.412012
2000-01-03   -0.026354
2000-01-04   -0.215692
2000-01-05   -0.061037
2000-01-06   -0.244042
2000-01-07    1.894504
2000-01-08    0.477482
Freq: D, dtype: float64

In [101]:
df.apply(lambda x: x.max() - x.min())

A    2.908862
B    3.064477
C    2.810886
dtype: float64

In [102]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C
2000-01-01,-0.003422,-1.217435,0.098541
2000-01-02,1.558077,-1.468459,0.024101
2000-01-03,1.529274,-2.03134,0.536723
2000-01-04,2.144236,-3.298577,0.541922
2000-01-05,1.143276,-2.88316,0.944352
2000-01-06,0.705068,-2.344561,0.111837
2000-01-07,2.61297,-0.547321,2.090207
2000-01-08,3.413222,-1.097984,3.273065


In [103]:
df.apply(np.exp)

Unnamed: 0,A,B,C
2000-01-01,0.996583,0.295988,1.103559
2000-01-02,4.765964,0.778004,0.928264
2000-01-03,0.971607,0.569566,1.669663
2000-01-04,1.849586,0.281609,1.005213
2000-01-05,0.367527,1.515002,1.495454
2000-01-06,0.645191,1.713604,0.434954
2000-01-07,6.738938,6.032975,7.230951
2000-01-08,2.226101,0.576567,3.263687


In [104]:
# apply() combinado con algo de inteligencia se puede usar para responder muchas preguntas sobre un conjunto de datos. 
# Por ejemplo, supongamos que quisiéramos extraer la fecha en la que se produjo el valor máximo de cada columna

In [105]:
tsdf = pd.DataFrame(
    np.random.randn(1000, 3),
    columns=["A", "B", "C"],
    index=pd.date_range("1/1/2000", periods=1000),
)

In [106]:
tsdf.apply(lambda x: x.idxmax())

A   2001-06-26
B   2001-02-03
C   2000-07-07
dtype: datetime64[ns]

## Agregaciones con múltiples funciones

#### Puede pasar múltiples argumentos de agregación como una lista. Los resultados de cada una de las funciones pasadas serán una fila en el DataFrame resultante.

In [107]:
tsdf = pd.DataFrame(
    np.random.randn(10, 3),
    columns=["A", "B", "C"],
    index=pd.date_range("1/1/2000", periods=10),
)


In [108]:
tsdf.iloc[3:7] = np.nan

In [109]:
tsdf

Unnamed: 0,A,B,C
2000-01-01,-0.440587,0.173459,-0.550694
2000-01-02,1.906352,-1.216274,-1.012373
2000-01-03,-0.562166,1.413097,-1.226349
2000-01-04,,,
2000-01-05,,,
2000-01-06,,,
2000-01-07,,,
2000-01-08,0.402474,-0.536681,-0.138719
2000-01-09,-0.131106,0.139503,-0.385605
2000-01-10,-1.36562,0.470793,1.397504


In [110]:
tsdf.agg(["sum", "mean", "std"]) # Nos ofrece un resultado simúltaneo de la suma y la media de cada columna

Unnamed: 0,A,B,C
sum,-0.190654,0.443898,-1.916236
mean,-0.031776,0.073983,-0.319373
std,1.111968,0.894712,0.931778


## API de transformación

#### El método transform() devuelve un objeto que está indexado del mismo (mismo tamaño) que el original. Esta API le permite proporcionar múltiples operaciones al mismo tiempo en lugar de una por una. Su API es bastante similar a la API .agg.

In [111]:
tsdf = pd.DataFrame(
    np.random.randn(10, 3),
    columns=["A", "B", "C"],
    index=pd.date_range("1/1/2000", periods=10),
)


In [112]:
tsdf.iloc[3:7] = np.nan

In [113]:
tsdf

Unnamed: 0,A,B,C
2000-01-01,1.305136,0.937031,-0.091592
2000-01-02,0.517771,-0.41063,-0.143562
2000-01-03,-0.640613,-0.441456,-0.630259
2000-01-04,,,
2000-01-05,,,
2000-01-06,,,
2000-01-07,,,
2000-01-08,0.375726,-2.031961,0.559013
2000-01-09,-1.100441,0.049275,0.026111
2000-01-10,1.31749,0.652063,1.442581


In [114]:
tsdf.transform(np.abs)

Unnamed: 0,A,B,C
2000-01-01,1.305136,0.937031,0.091592
2000-01-02,0.517771,0.41063,0.143562
2000-01-03,0.640613,0.441456,0.630259
2000-01-04,,,
2000-01-05,,,
2000-01-06,,,
2000-01-07,,,
2000-01-08,0.375726,2.031961,0.559013
2000-01-09,1.100441,0.049275,0.026111
2000-01-10,1.31749,0.652063,1.442581


## Reindexación y alteración de etiquetas

#### reindex() es el método fundamental de alineación de datos en pandas. Se utiliza para implementar casi todas las demás características que dependen de la funcionalidad de alineación de etiquetas. Reindexar significa conformar los datos para que coincidan con un conjunto dado de etiquetas a lo largo de un eje particular.

#### Cuando hablamos de índices, nos referimos a CAMBIAR los números o valores/nombres de las FILAS o las COLUMNAS

1. Reordena los datos existentes para que coincidan con un nuevo conjunto de etiquetas
2. Inserta marcadores de valores perdidos (NA) en ubicaciones de etiquetas donde no existían datos para esa etiqueta
3. Si se especifica, completa los datos para las etiquetas faltantes usando la lógica (muy relevante para trabajar con datos de series temporales)

In [115]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

In [116]:
s

a    1.111202
b    0.570721
c   -0.151362
d    0.898309
e   -0.060034
dtype: float64

In [117]:
s.reindex(["e", "b", "f", "d"]) #Cambiamos los valores de las filas

e   -0.060034
b    0.570721
f         NaN
d    0.898309
dtype: float64

#### Con un DataFrame, puede reindexar simultáneamente el índice y las columnas

In [118]:
df

Unnamed: 0,A,B,C
2000-01-01,-0.003422,-1.217435,0.098541
2000-01-02,1.5615,-0.251024,-0.074439
2000-01-03,-0.028803,-0.562881,0.512622
2000-01-04,0.614962,-1.267237,0.005199
2000-01-05,-1.000959,0.415417,0.40243
2000-01-06,-0.438208,0.538599,-0.832516
2000-01-07,1.907902,1.79724,1.978371
2000-01-08,0.800252,-0.550663,1.182858


In [119]:
df.reindex(index=["c", "f", "b"], columns=["three", "two", "one"])

Unnamed: 0,three,two,one
c,,,
f,,,
b,,,


In [120]:
# DataFrame.reindex() también admite una convención de llamada de "estilo de eje", 
# donde especifica un argumento de etiquetas único y el eje al que se aplica (fila (index) o columna (columns))

In [121]:
df.reindex(["c", "f", "b"], axis="index") #Filas 

Unnamed: 0,A,B,C
c,,,
f,,,
b,,,


In [122]:
df.reindex(["three", "two", "one"], axis="columns")

Unnamed: 0,three,two,one
2000-01-01,,,
2000-01-02,,,
2000-01-03,,,
2000-01-04,,,
2000-01-05,,,
2000-01-06,,,
2000-01-07,,,
2000-01-08,,,


## Reindexación para alinear con otro objeto - reindex_like()

#### Es posible que desee tomar un objeto y reindexar sus ejes para etiquetarlo como otro objeto. Si bien la sintaxis para esto es sencilla aunque detallada, es una operación lo suficientemente común como para que el método reindex_like() esté disponible para hacerlo más simple.

In [123]:
df2 = pd.DataFrame(np.random.randn(8, 3), index=index, columns=["X", "Y", "Z"])

In [124]:
df3 = pd.DataFrame(np.random.randn(8, 3), index=index, columns=["H", "K", "J"])

In [125]:
df2.reindex_like(df3)

Unnamed: 0,H,K,J
2000-01-01,,,
2000-01-02,,,
2000-01-03,,,
2000-01-04,,,
2000-01-05,,,
2000-01-06,,,
2000-01-07,,,
2000-01-08,,,


## Alinear objetos entre sí con align()

#### El método align() es la forma más rápida de alinear simultáneamente dos objetos. Admite un argumento de unión (relacionado con join y merge):

##### join='outer': take the union of the indexes (default)

##### join='left': use the calling object’s index

##### join='right': use the passed object’s index

##### join='inner': intersect the indexes

In [126]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])


In [127]:
s1 = s[:4]

In [128]:
s2 = s[1:]

In [129]:
s1.align(s2) # Full Join une las dos tablas, y resultado es una tupla

(a   -0.835141
 b   -0.125707
 c   -1.302237
 d    0.250640
 e         NaN
 dtype: float64,
 a         NaN
 b   -0.125707
 c   -1.302237
 d    0.250640
 e    2.024551
 dtype: float64)

In [130]:
s1.align(s2, join="inner") #Intercepta las dos tablas

(b   -0.125707
 c   -1.302237
 d    0.250640
 dtype: float64,
 b   -0.125707
 c   -1.302237
 d    0.250640
 dtype: float64)

In [131]:
s1.align(s2, join="left") #Solo intercepta los objetas que coincidan es como un LEFT JOIN

(a   -0.835141
 b   -0.125707
 c   -1.302237
 d    0.250640
 dtype: float64,
 a         NaN
 b   -0.125707
 c   -1.302237
 d    0.250640
 dtype: float64)

In [132]:
# Para DataFrames, el método de combinación se aplicará tanto al índice como a las columnas de forma predeterminada:

In [133]:
df.align(df2, join="inner", axis=0)

(                   A         B         C
 2000-01-01 -0.003422 -1.217435  0.098541
 2000-01-02  1.561500 -0.251024 -0.074439
 2000-01-03 -0.028803 -0.562881  0.512622
 2000-01-04  0.614962 -1.267237  0.005199
 2000-01-05 -1.000959  0.415417  0.402430
 2000-01-06 -0.438208  0.538599 -0.832516
 2000-01-07  1.907902  1.797240  1.978371
 2000-01-08  0.800252 -0.550663  1.182858,
                    X         Y         Z
 2000-01-01 -0.969657  1.162001 -0.829009
 2000-01-02  0.292857 -1.959368  1.129566
 2000-01-03 -1.098599  0.283809 -0.182426
 2000-01-04  0.102025  2.160032 -0.134551
 2000-01-05 -1.249509  2.500185  1.451550
 2000-01-06 -0.159041 -0.319569  0.040026
 2000-01-07  0.444549  1.321016  1.452468
 2000-01-08 -2.861369 -1.713229 -0.537292)

## Eliminar etiquetas de un eje aka eliminar fila/columna en base a su etiqueta/nombre
## axis = 0 se refiere a la fila y axis = 1 se refiere a la columna

#### Un método estrechamente relacionado con la reindexación es la función drop(). Elimina un conjunto de etiquetas de un eje

In [134]:
df

Unnamed: 0,A,B,C
2000-01-01,-0.003422,-1.217435,0.098541
2000-01-02,1.5615,-0.251024,-0.074439
2000-01-03,-0.028803,-0.562881,0.512622
2000-01-04,0.614962,-1.267237,0.005199
2000-01-05,-1.000959,0.415417,0.40243
2000-01-06,-0.438208,0.538599,-0.832516
2000-01-07,1.907902,1.79724,1.978371
2000-01-08,0.800252,-0.550663,1.182858


In [135]:
df.drop(["2000-01-03", "2000-01-07"], axis=0) #Elimina las filas indicadas

Unnamed: 0,A,B,C
2000-01-01,-0.003422,-1.217435,0.098541
2000-01-02,1.5615,-0.251024,-0.074439
2000-01-04,0.614962,-1.267237,0.005199
2000-01-05,-1.000959,0.415417,0.40243
2000-01-06,-0.438208,0.538599,-0.832516
2000-01-08,0.800252,-0.550663,1.182858


In [136]:
df.drop(["B"], axis=1) # Elimina la columna B

Unnamed: 0,A,C
2000-01-01,-0.003422,0.098541
2000-01-02,1.5615,-0.074439
2000-01-03,-0.028803,0.512622
2000-01-04,0.614962,0.005199
2000-01-05,-1.000959,0.40243
2000-01-06,-0.438208,-0.832516
2000-01-07,1.907902,1.978371
2000-01-08,0.800252,1.182858


## Renombrar/asignar etiquetas - rename()

#### El método rename() le permite volver a etiquetar un eje en función de algún mapeo (un dict o Serie) o una función arbitraria.

In [137]:
s

a   -0.835141
b   -0.125707
c   -1.302237
d    0.250640
e    2.024551
dtype: float64

In [138]:
s.rename(str.upper) # A mayúscula

A   -0.835141
B   -0.125707
C   -1.302237
D    0.250640
E    2.024551
dtype: float64

#### DataFrame.rename() también es compatible con una convención de llamada de "estilo de eje", en la que se especifica un solo asignador y el eje al que se aplica esa asignación.

In [139]:
df.rename({"A": "foo", "B": "bar"}, axis="columns")

Unnamed: 0,foo,bar,C
2000-01-01,-0.003422,-1.217435,0.098541
2000-01-02,1.5615,-0.251024,-0.074439
2000-01-03,-0.028803,-0.562881,0.512622
2000-01-04,0.614962,-1.267237,0.005199
2000-01-05,-1.000959,0.415417,0.40243
2000-01-06,-0.438208,0.538599,-0.832516
2000-01-07,1.907902,1.79724,1.978371
2000-01-08,0.800252,-0.550663,1.182858


In [140]:
# df.rename({"a": "apple", "b": "banana", "d": "durian"}, axis="index")

## Iteraciones

#### El comportamiento de la iteración básica sobre objetos pandas depende del tipo. Al iterar sobre una serie, se considera como una matriz y la iteración básica produce los valores. Los DataFrames siguen la convención similar a un diccionario de iterar sobre las "claves" de los objetos

#### IMPORTANTE: a diferencia de otras tareas, no es recomendable iterar sobre objetos de Pandas de esta forma, a menos que sea estrictamente necesario. Una solución más útil, es utilizar una función que aplique la iteración de forma automática, como por ejemplo apply() 

In [141]:
# En resumen, la iteración básica (for i in objeto) produce:

# Serie: valores

# DataFrame: etiquetas de columna

In [142]:
# Iterar sobre un data frame, te otorga los nombres de las columnas

df = pd.DataFrame(
    {"col1": np.random.randn(3), "col2": np.random.randn(3)}, index=["a", "b", "c"]
)


In [143]:
for col in df:
    print(col)

col1
col2


In [144]:
#Para iterar sobre las filas de un DataFrame, puede usar los siguientes métodos:

# iterrows(): Iterar sobre las filas de un DataFrame como pares (índice, Serie). 
#Esto convierte las filas en objetos de serie, que pueden cambiar los tipos de d y tiene algunas implicaciones de rendimiento.

# itertuples(): Iterar sobre las filas de un DataFrame como tuplas con nombre de los valores. 
# Esto es mucho más rápido que iterrows(), y en la mayoría de los casos es preferible usarlo 
# para iterar sobre los valores de un DataFrame.

### Items

#### items() itera sobre elementos de clave:valor de un diccionario

In [146]:
for label, ser in df.items():
    print(label)
    print(ser)


col1
a   -0.424740
b   -1.013444
c    1.929811
Name: col1, dtype: float64
col2
a   -1.151373
b   -0.598839
c   -0.259223
Name: col2, dtype: float64


### iterrows

#### iterrows() le permite iterar a través de las filas de un DataFrame como objetos de Serie. Devuelve un iterador que produce cada valor de índice junto con una Serie que contiene los datos en cada fila

In [147]:
for row_index, row in df.iterrows():
    print(row_index, row, sep="\n")

a
col1   -0.424740
col2   -1.151373
Name: a, dtype: float64
b
col1   -1.013444
col2   -0.598839
Name: b, dtype: float64
c
col1    1.929811
col2   -0.259223
Name: c, dtype: float64


### itertuples

#### itertuples() devolverá un iterador que produzca una tupla con nombre para cada fila en el DataFrame. El primer elemento de la tupla será el valor de índice correspondiente de la fila, mientras que los valores restantes son los valores de fila.

In [148]:
for row in df.itertuples():
    print(row)

Pandas(Index='a', col1=-0.42474001008091, col2=-1.1513733603492242)
Pandas(Index='b', col1=-1.0134435757599358, col2=-0.5988393395472995)
Pandas(Index='c', col1=1.9298113130368701, col2=-0.2592232816615828)


## Métodos de cadenas/texto vectorizadas

#### La Serie está equipada con un conjunto de métodos de procesamiento de cadenas que facilitan la operación en cada elemento de la matriz. Quizás lo más importante es que estos métodos excluyen automáticamente los valores faltantes/NA. Se accede a ellos a través del atributo str de Series y, por lo general, tienen nombres que coinciden con los métodos de cadena integrados equivalentes.

#### En esta página podemos consultar los métodos para trabajar con strings: https://www.w3schools.com/python/python_ref_string.asp

In [149]:
s = pd.Series(
    ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"], dtype="string"
)

In [151]:
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5    <NA>
6    caba
7     dog
8     cat
dtype: string

In [152]:
s.str.upper()

0       A
1       B
2       C
3    AABA
4    BACA
5    <NA>
6    CABA
7     DOG
8     CAT
dtype: string

## Ordenar (Sort)

#### Pandas admite tres mecanismos para ordenar los elementos de una tabla: por el índice, por los valores de las columnas, o por ambos de manera simúltanea

### Ordenar por índice (ordenar solo las filas y columnas, no los valores)
### Series.sort_index() y DataFrame.sort_index()

#### Los métodos Series.sort_index() y DataFrame.sort_index() se utilizan para ordenar un objeto pandas por su índice.

In [153]:
df = pd.DataFrame(
    {
        "one": pd.Series(np.random.randn(3), index=["a", "b", "c"]),
        "two": pd.Series(np.random.randn(4), index=["a", "b", "c", "d"]),
        "three": pd.Series(np.random.randn(3), index=["b", "c", "d"]),
    }
)

In [154]:
df

Unnamed: 0,one,two,three
a,0.703405,0.218643,
b,-0.985069,-0.080806,-0.564969
c,-0.142409,-0.156215,1.598128
d,,1.863059,0.837736


In [155]:
# Vamos a desordenar un poco la tabla

unsorted_df = df.reindex(
    index=["a", "d", "c", "b"], columns=["three", "two", "one"]
)

In [157]:
unsorted_df

Unnamed: 0,three,two,one
a,,0.218643,0.703405
d,0.837736,1.863059,
c,1.598128,-0.156215,-0.142409
b,-0.564969,-0.080806,-0.985069


In [158]:
# Ahora vamos a ordenar los índices con sort_index()

unsorted_df.sort_index()

Unnamed: 0,three,two,one
a,,0.218643,0.703405
b,-0.564969,-0.080806,-0.985069
c,1.598128,-0.156215,-0.142409
d,0.837736,1.863059,


In [160]:
#Sí queremos podemos colocarlos de forma inversa, utilizando el atributo: "ascending = False"
unsorted_df.sort_index(ascending=False)

Unnamed: 0,three,two,one
d,0.837736,1.863059,
c,1.598128,-0.156215,-0.142409
b,-0.564969,-0.080806,-0.985069
a,,0.218643,0.703405


In [161]:
# Sí queremos ordenarlo por los valores de la columna, debemos utilizar el argumento "axis = 1"
# Esto colocará las columnas en el orden alfabético correcto
unsorted_df.sort_index(axis=1)

Unnamed: 0,one,three,two
a,0.703405,,0.218643
d,,0.837736,1.863059
c,-0.142409,1.598128,-0.156215
b,-0.985069,-0.564969,-0.080806


In [165]:
#Así podemos ordenar los valores de una sola columna
unsorted_df["three"].sort_index()

a         NaN
b   -0.564969
c    1.598128
d    0.837736
Name: three, dtype: float64

## Ordenar por valores 

### Series.sort_values(), DataFrame.sort_values(), el argumento opcional by=["col1", "col2 "] permite seleccionar más de una columna

#### El método Series.sort_values() se usa para ordenar una Serie por sus valores. El método DataFrame.sort_values() se usa para ordenar un DataFrame por sus valores de columna o fila. El parámetro opcional by de DataFrame.sort_values() puede usarse para especificar una o más columnas para determinar el orden de clasificación.

In [166]:
df1 = pd.DataFrame(
    {"one": [2, 1, 1, 1], "two": [1, 3, 2, 4], "three": [5, 4, 3, 2], "four": [6, 4, 7, 9]}
)


In [167]:
df1

Unnamed: 0,one,two,three,four
0,2,1,5,6
1,1,3,4,4
2,1,2,3,7
3,1,4,2,9


In [168]:
# Vamos a ordenar por los valores en la columna "two"

df1.sort_values(by="two")

Unnamed: 0,one,two,three,four
0,2,1,5,6
2,1,2,3,7
1,1,3,4,4
3,1,4,2,9


In [170]:
# Ahora vamos a ordenar por las valores de las columnas 

df1[["one", "two", "four"]].sort_values(by=["one", "two"])

Unnamed: 0,one,two,four
2,1,2,7
1,1,3,4
3,1,4,9
0,2,1,6


In [171]:
# Estos métodos tienen un tratamiento especial de los valores NA a través del argumento na_position

s[2] = np.nan

In [172]:
s.sort_values()

0       A
3    Aaba
1       B
4    Baca
6    CABA
8     cat
7     dog
2    <NA>
5    <NA>
dtype: string

In [173]:
s.sort_values(na_position="first")

2    <NA>
5    <NA>
0       A
3    Aaba
1       B
4    Baca
6    CABA
8     cat
7     dog
dtype: string

## Ordenar por índices y valores

#### Para ordenar al mismo tiempo por filas y columnas, utilizaremos también DataFrame.sort_values(), junto con el argumento "by"

In [178]:
# Vamos a crear una Serie multi índice

idx = pd.MultiIndex.from_tuples(
    [("a", 1), ("a", 2), ("a", 2), ("b", 2), ("b", 1), ("b", 1)]
)

In [175]:
idx.names = ["first", "second"]

In [176]:
df_multi = pd.DataFrame({"A": np.arange(6, 0, -1)}, index=idx)

In [177]:
df_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,A
first,second,Unnamed: 2_level_1
a,1,6
a,2,5
a,2,4
b,2,3
b,1,2
b,1,1


In [179]:
# Ordenar por 'segundo' (índice) y 'A' (columna)

df_multi.sort_values(by=["second", "A"])

Unnamed: 0_level_0,Unnamed: 1_level_0,A
first,second,Unnamed: 2_level_1
b,1,1
b,1,2
a,1,6
b,2,3
a,2,4
a,2,5


### Valores más mayores y menores - nsmallest() y nlargest(). 
#### Estas funciones solo pueden ser aplicadas a datos númericos


#### Series tiene los métodos nsmallest() y nlargest() que devuelven los valores más pequeños o más grandes. Para una serie grande, esto puede ser mucho más rápido que ordenar toda la serie y llamar a la función head(n)

In [180]:
s = pd.Series(np.random.permutation(10))

In [181]:
s

0    1
1    8
2    7
3    6
4    5
5    9
6    2
7    3
8    0
9    4
dtype: int32

In [182]:
s.sort_values()

8    0
0    1
6    2
7    3
9    4
4    5
3    6
2    7
1    8
5    9
dtype: int32

In [183]:
s.nsmallest(4)

8    0
0    1
6    2
7    3
dtype: int32

In [184]:
s.nlargest(3)

5    9
1    8
2    7
dtype: int32

### El Data Frame utiliza los mismos métodos, pero llevan dos argumentos: nsmallest(filas, "columna")/nlargest(filas, "columna")

In [185]:
df = pd.DataFrame(
    {
        "a": [-2, -1, 1, 10, 8, 11, -1],
        "b": list("abdceff"),
        "c": [1.0, 2.0, 4.0, 3.2, np.nan, 3.0, 4.0],
    }
)

In [186]:
df

Unnamed: 0,a,b,c
0,-2,a,1.0
1,-1,b,2.0
2,1,d,4.0
3,10,c,3.2
4,8,e,
5,11,f,3.0
6,-1,f,4.0


In [191]:
df.nlargest(3, "a")

Unnamed: 0,a,b,c
5,11,f,3.0
3,10,c,3.2
4,8,e,


In [192]:
# Podemos aplicarlo a dos columnas
df.nlargest(5, ["a", "c"])

Unnamed: 0,a,b,c
5,11,f,3.0
3,10,c,3.2
4,8,e,
2,1,d,4.0
6,-1,f,4.0


In [193]:
df.nsmallest(3, "a")

Unnamed: 0,a,b,c
0,-2,a,1.0
1,-1,b,2.0
6,-1,f,4.0


In [194]:
df.nsmallest(5, ["a", "c"])

Unnamed: 0,a,b,c
0,-2,a,1.0
1,-1,b,2.0
6,-1,f,4.0
2,1,d,4.0
4,8,e,


In [195]:
df.dtypes

a      int64
b     object
c    float64
dtype: object

## Seleccionar columnas basándose en su tipo de dato "dtype"

In [196]:
df = pd.DataFrame(
    {
        "string": list("abc"),
        "int64": list(range(1, 4)),
        "uint8": np.arange(3, 6).astype("u1"),
        "float64": np.arange(4.0, 7.0),
        "bool1": [True, False, True],
        "bool2": [False, True, False],
        "dates": pd.date_range("now", periods=3),
        "category": pd.Series(list("ABC")).astype("category"),
    }
)


In [197]:
df["tdeltas"] = df.dates.diff()


In [198]:
df["uint64"] = np.arange(3, 6).astype("u8")

In [199]:
df["other_dates"] = pd.date_range("20130101", periods=3)

In [200]:
df["tz_aware_dates"] = pd.date_range("20130101", periods=3, tz="US/Eastern")

In [201]:
df

Unnamed: 0,string,int64,uint8,float64,bool1,bool2,dates,category,tdeltas,uint64,other_dates,tz_aware_dates
0,a,1,3,4.0,True,False,2022-09-18 23:08:39.854093,A,NaT,3,2013-01-01,2013-01-01 00:00:00-05:00
1,b,2,4,5.0,False,True,2022-09-19 23:08:39.854093,B,1 days,4,2013-01-02,2013-01-02 00:00:00-05:00
2,c,3,5,6.0,True,False,2022-09-20 23:08:39.854093,C,1 days,5,2013-01-03,2013-01-03 00:00:00-05:00


In [202]:
df.dtypes

string                                object
int64                                  int64
uint8                                  uint8
float64                              float64
bool1                                   bool
bool2                                   bool
dates                         datetime64[ns]
category                            category
tdeltas                      timedelta64[ns]
uint64                                uint64
other_dates                   datetime64[ns]
tz_aware_dates    datetime64[ns, US/Eastern]
dtype: object

### select_dtypes()

### select_dtypes() tiene dos argumentos "include" y "exclude", al momento de seleccionar podemos decidir, que queremos incluir y queremos descartar, en base al tipo de dato

In [203]:
# Seleccionar solo booleanos
df.select_dtypes(include=[bool])

Unnamed: 0,bool1,bool2
0,True,False
1,False,True
2,True,False


In [204]:
# Hacer una selección, donde se incluyan los booleanos
df.select_dtypes(include=["bool"])

Unnamed: 0,bool1,bool2
0,True,False
1,False,True
2,True,False


In [205]:
# Seleccionar números y booleanos, pero excluir los unsigneinteger
df.select_dtypes(include=["number", "bool"], exclude=["unsignedinteger"])

Unnamed: 0,int64,float64,bool1,bool2,tdeltas
0,1,4.0,True,False,NaT
1,2,5.0,False,True,1 days
2,3,6.0,True,False,1 days


In [206]:
# Para selecionar una columna de string, debemos utilizar el térmimo "object"
df.select_dtypes(include=["object"])

Unnamed: 0,string
0,a
1,b
2,c
