### Dado que pandas tiene como objetivo proporcionar gran parte de la funcionalidad de análisis y manipulación de datos para la que las personas usan R, esta página se inició para proporcionar una visión más detallada del lenguaje R y sus muchas bibliotecas de terceros relacionadas con Pandas

## 1. Guía de Referencia Básica

In [1]:
# Funciones principales

#    R                                Pandas

# dim(df)                            df.shape

# head(df)                           df.head()

# slice(df, 1:10)                    df.iloc[:9]

# filter(df, col1 == 1, col2 == 1)   df.query('col1 == 1 & col2 == 1')

# df[df$col1 == 1 & df$col2 == 1,]   df[(df.col1 == 1) & (df.col2 == 1)]

# select(df, col1, col2)             df[['col1', 'col2']]

# select(df, col1:col3)              df.loc[:, 'col1':'col3']

# select(df, -(col1:col3))           df.drop(cols_to_drop, axis=1) but see 1

# distinct(select(df, col1))         df[['col1']].drop_duplicates()

# distinct(select(df, col1, col2))   df[['col1', 'col2']].drop_duplicates()

# sample_n(df, 10)                   df.sample(n=10)

# sample_frac(df, 0.01)              df.sample(frac=0.01)

## 2. Ordenar

In [2]:
# R                               pandas

# arrange(df, col1, col2)        df.sort_values(['col1', 'col2'])

# arrange(df, desc(col1))        df.sort_values('col1', ascending=False)

## 3. Transformar / Renombrar

In [3]:
# R                                                       pandas

# select(df, col_one = col1)              df.rename(columns={'col1': 'col_one'})['col_one']

# rename(df, col_one = col1)              df.rename(columns={'col1': 'col_one'})

# mutate(df, c=a-b)                       df.assign(c=df['a']-df['b'])

## 4. Agrupar y Resumir

In [4]:
# R                                                  pandas

# summary(df)                                      df.describe()

# gdf <- group_by(df, col1)                        gdf = df.groupby('col1')

# summarise(gdf, avg=mean(col1, na.rm=TRUE))       df.groupby('col1').agg({'col1': 'mean'})

# summarise(gdf, total=sum(col1))                  df.groupby('col1').sum()

## 5. Seleccionar columnas

In [5]:
# En R podemos seleccionar columnas por nombres utlizando un vector "c" c("a", "c", "e") o 
# con números utilizando slicing, df[, c(1:10, 25:30, 40, 50:100)]

# Por nombres: 
# df <- data.frame(a=rnorm(5), b=rnorm(5), c=rnorm(5), d=rnorm(5), e=rnorm(5))
# df[, c("a", "c", "e")]

# Por número de columna (slicing)
# df <- data.frame(matrix(rnorm(1000), ncol=100))
# df[, c(1:10, 25:30, 40, 50:100)]

###########################

# En Pandas, podemos seleccionar las columnas por el nombre con una lista [col1, col2], 
# o haciendo slicing con .iloc [1:10, 24:30] ademas de ello, podemos utilizar la funcion ".loc" (label location) 

# Por nombre (seleccion basica)
# df[["a", "c"]]

# Con slicing utilizando .iloc
# df.iloc[1:5, [:10, 24:30]]

# Por etiquetas utilizando .loc
# df.loc[:, ["a", "c"]]

## 6. Seleccion por contenido (match) %in% y isin()

In [6]:
# En R, para conocer si un elemento contiene un dato o valor especifico se utiliza "%in%"
# s <- 0:4
# s %in% c(2,4)

################

# En pandas se utiliza el metodo "isin()"
# s = pd.Series(np.arange(5), dtype=np.float32)
# s.isin([2, 4])

## 7. Selecciones por subconjunto (subset) - subset y query()

In [7]:
# En R existe una funcion directamente denomina "subset" que permite hacer selecciones en base a una condicion
# df <- data.frame(a=rnorm(10), b=rnorm(10))
# subset(df, a <= b)
# df[df$a <= df$b,]  # note the comma

#########################

# El metodo equivalente en pandas es "query()"
# df = pd.DataFrame({"a": np.random.randn(10), "b": np.random.randn(10)})
# df.query("a <= b")
# df[df["a"] <= df["b"]]
# Podemos hacer lo mismo con ".iloc": df.loc[df["a"] <= df["b"]]