# Creating DataFrames

In [None]:
!pip install pandas

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame(
{"a" : [4, 5, 6],
"b" : [7, 8, 9],
"c" : [10, 11, 12]},
index = [1, 2, 3])
#Specify values for each column.

In [3]:
df = pd.DataFrame(
[[4, 7, 10],
[5, 8, 11],
[6, 9, 12]],
index=[1, 2, 3],
columns=['a', 'b', 'c'])
#Specify values for each row.

In [5]:
df = pd.DataFrame(
{"a" : [4 ,5, 6],
"b" : [7, 8, 9],
"c" : [10, 11, 12]},
index = pd.MultiIndex.from_tuples(
[('d', 1), ('d', 2),
('e', 2)], names=['n', 'v']))
#Create DataFrame with a MultiIndex

### Method Chaining
Muchos de los metodos de pandas retornan un dataframe que puede ser usado por otros metodos para aplicarlos a resultados. Esto mejora la readability del codigo.

In [6]:
df = (pd.melt(df)
.rename(columns={
'variable':'var',
'value':'val'})
.query('val >= 200')
)

### Tidy Data (Datos ordenados)
Las variables se ordenan en Columnas, los datos se ordenan en renglones

### Reestructuración de datos: 
Cambio de diseño, ordenación, reindexación, cambio de nombre.

In [7]:
pd.melt(df) #Convierte columnas en filas

Unnamed: 0,variable,value


In [8]:
pd.concat([df1,df2]) #Añades filas al dataframe

NameError: name 'df1' is not defined

In [9]:
 df.pivot(columns='var', values='val')#Distribuye filas en columnas

var


pd.concat([df1,df2]), axis=1) #Une columnas.

In [None]:
df.sort_values('mpg') #Ordena filas de menor a mayor
df.sort_values('mpg’, ascending=False) #Ordena filas de mayor a menor
df.rename(columns = {'y':'year'}) #Renombra las columnas de un dataframe
df.sort_index() #Ordena el index de un dataframe
df.reset_index() #Regresa los indices del dataframe a numeros, moviendo los indices a columnas.
df.drop(columns=['Length’, 'Height']) #drop columnas del dataframe

## Subset Observations (renglones)

In [None]:
df[df.length>7] #Extrae datos qu ecumplan criterios logicos

In [None]:
df.drop_duplicates() #Remueve filas duplicadas (solo considera columnas)

In [None]:
df.sample(frac=0.5) #Seleccionar una fraccion aleatoria de las rows

In [None]:
df.sample(n=10) #Selecciona n rows aleatoriamente

In [None]:
df.nlargest(n,'value') #Selecciona los mas n numeros mas grandes

In [None]:
df.nsmallest(n, 'value')#Selecciona los n mas pequeños 

In [None]:
df.head(n)

In [None]:
df.tail(n)

## Subset Variables (columnas)

In [None]:
df[['width’, 'length’, 'species']] #Selecciona multiples

In [None]:
df['width'] or df.width #Selecciona una sola columna con un nombre espesifico

In [None]:
df.filter(rejex = 'regex') #seleccionar columnas que ampaten con la expresion regular regex

![image.png](attachment:88edc1a9-9c53-4130-91fb-124113ab98eb.png)

## Subset Filas y columnas

In [None]:
Use df.loc[] and df.iloc[] para seleccionar filas, solo columnas o ambas!
Use df.at[] and df.iat[] para acceder a un unico valor por fila y columna.

El primer indice selecciona filas, el segundo indice selecciona columnas.
```python
df.iloc[10:20] 
#Selecciona filas de la 10 a la 20
df.iloc[:, [1, 2, 5]]
Selecciona columnas in la posicion 1, 2 y 5 (primera columna es 0)
df.loc[:, 'x2':'x4']
#Select all columns between x2 and x4 (inclusive).
df.loc[df['a'] > 10, ['a’, 'c']]
#selecciona filas reuniendolas por condicion logica y solo por columnas espesificas
df.iat[1,2]
#accede a un solo valor mediante el indice
df.at[4,'A']
#Accede a un solo valor mediante la etiqueta
```

## Using query (Usando Consulta)
**query()** habilita expresiones Booleanas para filtrar filas

In [None]:
df.query('Length > 7')

In [None]:
df.query('Length > 7 and Width < 8')

In [None]:
df.query('Name.str.startswith("abc")', engine="pyhon")

## Summarize Data

In [None]:
df['w'].value_counts()
#Count number of rows with each unique value of variable
len(df)
#Quantity of rows in DataFrame.
df.shape
#Tuple of # of rows, # of columns in DataFrame.
df['w'].nunique()
# of distinct values in a column.
df.describe()
#Basic descriptive and statistics for each column (or GroupBy).

Pandas proporciona un amplio conjunto de funciones de resumen que operan en
diferentes tipos de objetos pandas (columnas DataFrame, Series,
GroupBy, Expanding y Rolling (ver a continuación)) y generan
valores únicos para cada uno de los grupos. Cuando se aplica a un DataFrame, el
resultado se devuelve como una Serie pandas para cada columna. Ejemplos:

In [None]:
sum() #Sum values of each object.
min() #Minimum value in each object.
count() #Count non-NA/null values of each object.
max() #Maximum value in each object.
mean() #Mean value of each object.
median() #Median value of each object.
var() #Variance of each object.
quantile([0.25,0.75]) #Quantiles of each object.
std() # Standard deviation of each object.
apply(function) #Apply function to each object.

## Handling Missing Data (Manejo de datos faltantes)

In [None]:
df.dropna()
#Drop rows with any column having NA/null data.
df.fillna(value)
#Replace all NA/null data with value.

## Make New Columns

In [None]:
df.assign(Area=lambda df: df.Length*df.Height)
#Compute and append one or more new columns.
df['Volume'] = df.Length*df.Height*df.Depth
#Add single column.
pd.qcut(df.col, n, labels=False)
#Bin column into n buckets.

pandas proporciona un amplio conjunto de funciones vectoriales que operan en todas
las columnas de un DataFrame o en una sola columna seleccionada (una
serie de pandas). Estas funciones generan vectores de valores para cada una de las
columnas, o una sola serie para las series individuales. Ejemplos:

In [None]:
max(axis=1) #Element-wise max.
min(axis=1) #Element-wise min.
clip(lower=-10,upper=10) #Recortar valores en los umbrales de entrada.
abs() #Absolute value.

## Combine Data Sets

![image.png](attachment:d346589c-8239-4105-8557-a0f439956378.png)

## Agrupar Datos

In [None]:
df.groupby(by="col")

In [None]:
df.groupby(level="ind")

Todas las funciones de resumen mencionadas anteriormente se pueden aplicar a un grupo.
Funciones GroupBy adicionales:

In [None]:
size() #tamaño de cada grupo.
agg(function) #Agrega grupo usando función.

Los ejemplos siguientes también se pueden aplicar a grupos. En este caso, la
función se aplica por grupo y los vectores devueltos
tienen la misma longitud que el DataFrame original.

In [None]:
shift(1) #Copiar con valores desplazados en 1.
rank(method='dense') #Rangos sin espacios.
rank(method='min') #Rangos. Los empates obtienen el rango mínimo.
rank(pct=True) #Rangos reescalados al intervalo [0, 1].
rank(method='first') #Rangos. Los empates van al primer valor.
shift(-1) #Copiar con valores rezagados por 1.
cumsum() #Suma acumulativa.
cummax() #Maximo acumulativo.
cummin() #Cumulative min.
cumprod() #Cumulative product.

## Ventanas

In [None]:
df.expanding() #Return an Expanding object allowing summary functions to 
#be applied cumulatively.Devuelve un objeto desplegable que permite aplicar funciones de resumen de forma acumulativa

df.rolling(n) #Return a Rolling object allowing summary functions to be applied to windows of length n.
#Devuelve un objeto rodante que permite aplicar funciones de resumen a ventanas de longitud n

## Plotting (Trazado o graficación)

In [None]:
df.plot.hist() #Crea un histograma por cada columna

In [None]:
df.plot.scatter(x='w',y='h') #Gráfico de dispersión utilizando pares de puntos