### __Crear dataframe__

In [142]:
# Importar pandas.
import pandas as pd
import openpyxl 

In [143]:
# Crear un df a partir de datos.
Datos = {'Columna 1': [1, 2], 'Columna 2': [3, 4]}

df = pd.DataFrame(Datos)

##### Información general del df

In [None]:
df.info()

### __Manejo de archivos csv y excel__

##### Crear df a partir de .csv

In [144]:
df = pd.read_csv('C:/Users/tomas/Datos/Clase 2/arbolado-en-espacios-verdes.csv')

##### Crear df a partir de .xlsx

In [145]:
# Leer un excel.
df = pd.read_excel('J:/My Drive/Forraje/Proveedores.xlsx', sheet_name='Centro')

# sheet_name: la hoja del excel de la cuál se toman los datos.
# Se necesita importar la libreria openpyxl.

##### Guardar un df en distintos formatos 

In [146]:
# Guardar un csv o excel a partir de un df.

df.to_csv('C:/Users/tomas/Datos/Clase 2/File.csv', index=False)
df.to_excel('C:/Users/tomas/Datos/Clase 2/File.xlsx', index=False)

### __Selección y filtro de datos__

##### Seleccionar un dato específico del df por nombre de columna con .loc

In [147]:
Dato = df.loc[1, 'Anea']

# Fila 1, columna 'Anea'.

##### Seleccionar un dato específico del df por índices

In [148]:
Dato = df.iloc[1, 2]

# Fila 1, columna 2.

##### Seleccionar un dato específico del df por nombre de columna e índice

In [149]:
# Seleccionar un dato en específico por nombre de columna.
Dato = df['Anea'][1]

# Fila 1, columna 'Anea'.

##### Seleccionar una fila de un df

In [None]:
Fila = df.iloc[0]

##### Seleccionar un dato específico del df por condiciones

In [150]:
Dato = df[df['Descripcion'] == 'Rosco Cocktail x 15 kg.']['Descripcion'].values[0]

# - Filtra filas que cumplan una condición.
# - Selecciona la columna específica, formando una lista.
# - Se queda con el primer valor de esa lista.

##### Crear una serie a partir de una columna por su nombre

In [151]:
Columna = df['Descripcion']

##### Crear un sub-df con algunas columnas

In [152]:
Varias_Columnas = df[['Descripcion', 'Gallo']]

##### Filtrar filas a partir de cumplir una condición en una columna

In [153]:
Filas = df[df['Gallo'] > 2]   
# Filtra las filas en las que los datos de la columna 'Gallo' sean mayores a 2.

In [154]:
Datos = df.loc[df['Gallo'] == 200]
# Lo mismo, solo con el método .loc

##### Seleccionar un conjunto de datos con slicing

In [155]:
Filas = df.iloc[0:5] 
# Fila 0 a la 4.

In [156]:
df_Nuevo = df.iloc[0:5, 1:3]  
# Fila 0 a 4, columnas 1 a 2.

##### Filtrar filas a partir de coincidencias de una columna con un iterador

In [157]:
# Lista de valores que se desea filtrar.
Valores = ['Rosco', 'Dr. Perrot', 'Raza']

# Filtrar el df usando isin().
df = df[df['Descripcion'].isin(Valores)]

##### Filtrar filas a partir de diferencias de una columna con un iterador

In [158]:
# Filtrar el df usando isin().
df = df[~df['Descripcion'].isin(Valores)]

##### Filtrar filas a partir de coincidencias de una columna con varios iteradores

In [159]:
df = df[(df['Descripcion'].isin(Valores)) & (df['Gallo'].isin(Valores))]

##### Buscar los datos que contienen un texto

In [160]:
Rosco = df['Descripcion'].str.contains('Rosco') 

# Devuelve una serie con los valores de la columna 'Descripcion' que contienen 'Rosco' en su interior.

##### Obtener los valores únicos de una columna o fila

In [161]:
Valores_Unicos = df['Descripcion'].unique()

### __Manipulación de datos__

##### Agregar una nueva columna

In [162]:
df['Nueva'] = df['Gallo'] + df['Anea']
# La nueva es la suma de las dos anteriores.

##### Eliminar un conjunto de columnas

In [163]:
df_Sin_Columnas = df.drop(['Yaguar', 'King Clor'], axis=1, inplace=True)

# axis=1: marca el eje vertical.
# inplace=True: que se edita el df original y no se crea una copia.

##### Eliminar filas con valores nulos

In [164]:
Filas_Sin_Ceros = df.dropna(inplace=True)

##### Rellenar valores nulos

In [165]:
df_Sin_Nulos = df.fillna(0, inplace=True)
# Los rellena con 0.

### __Ordenamiento__

##### Groupby

In [166]:
# groupby.


##### Ordenar filas de df a partir de los datos de una columna

In [167]:
df_Ordenado = df.sort_values(by='Gallo', ascending=False)

##### Ordenar columnas personalizadamente

In [168]:
# Nombres de las columnas en orden.
Orden = ['Anea', 'Gallo', 'Pilar']

# Ordena el DataFrame en ese orden.
df_Ordenado = df[Orden]

##### Resetear el índice del df

In [169]:
df = df.reset_index(drop=True)

### __Funciones a columnas o filas__

##### Obtener columnas

In [None]:
df.columns

##### Aplicar función a una columna

In [170]:
df['Gallo'] = df['Gallo'].apply(lambda x: x * 2)

# A cada elemento de la columna 'Gallo' lo multiplica por 2, editando la columna.

##### Aplicar función fila tras fila

In [171]:
Serie = df.apply(lambda Row: Row['Gallo'] + Row['Anea'], axis=1)

# Devuelve una serie donde se sumó el valor de 'Gallo' y el de 'Anea' de cada fila

##### Aplica una función a cada elemento de un df

In [172]:
df_Nuevo = df.map(lambda x: x*2)  

# Multiplica cada valor de todas las columnas por 2.

##### Crear columna con mayor valor entre dos columnas

In [173]:
df['C'] = df.apply(lambda row: max(row['Anea'], row['Gallo']), axis=1)

# Compara las columnas Anea y Gallo y el mayor valor lo pone en C.

##### Renombrar columna

In [174]:
df.rename(columns={'C': 'Nombre_Nuevo'})

##### Insertar columna en posición específica

In [None]:
df.insert(df, 'Column_Name', value = df['Other_Column'])

##### Eliminar columna

In [175]:
# Lista de nombres de columnas que deseás dropear.
Borrar = ['Dacam']

# Dropear las columnas especificadas
df = df.drop(columns=Borrar)

### __Unión de dataframes__

##### Merge

Une los dfs horizontalmente.

In [176]:
df_Horizontal = pd.merge(df, df, on='Gallo')

__on.__ Es la columna que ambos tienen en común. Se usa como base para la unión. Es la "key_column". Si no se especifica nada, se combinan las filas que tienen coincidencias en la "key_column".

__Tipos de uniones.__
- _how = 'inner'_. Por defecto.
- _how = 'left'_. Se mantienen todas las filas del df1 y las coincidencias del df2. Las que no son NaN.
- _how = 'right'_. Se mantienen todas las filas del df2 y las coincidencias del df1. Las que no son NaN.
- _how = 'outer'_. Todas las filas de ambas tablas, y pone NaN cuando no es coincidente.
- _how = 'cross'_. Devuelve el producto cartesiano de ambas tablas: combina cada fila de df1 y df2, sin columna clave. Crea todas las combinaciones posibles de filas entre dos tablas.


##### Concatenar df

Los une verticalmente, uno debajo del otro.

In [177]:
df_Concatenado = pd.concat([df, df])

### __Tipos de datos__

##### Convertir datos de una columna a otro tipo de variable

In [178]:
df['Anea'] = df['Anea'].astype(int)

# Convierte los datos de 'Anea' a int.

##### Cambiar columna a formato fecha

In [179]:
df['Anea'] = pd.to_datetime(df['Anea'])

##### Chequear tipo de dato de una columna

In [None]:
df['Columna'].dtype

##### Chequear si un df, columna o celda es numérica

In [None]:
pd.api.types.is_numeric_dtype(df['Columna'])

### __Replace__

##### Reemplazar datos en una columna

In [180]:
df['Anea'] = df['Anea'].replace(2, 20)
# Se reemplaza el 2 por el 20 en toda la columna.

##### Reemplazar múltiples valores con un diccionario

In [181]:
Reemplazos = {
    2:30,
    4:40,
    10:100}

df['Anea'] = df['Anea'].replace(Reemplazos)

# Reemplaza 2 por 30, 4 por 40, y así.

##### Reemplazar los valores que cumplen una condición

In [182]:
df.loc[df['Pilar'] > 10, 'Pilar'] = 100

# Si el valor es mayor a 10, se reemplaza por 100.

##### Rellenar valores NaN por otro valor

In [183]:
df['Anea'] = df['Anea'].fillna(0)

# Se rellena con 0, pero puede ser otro valor.

### __Iteraciones__

##### Iterrows

In [184]:
# Crear un df de ejemplo.

df = {'Columna1': [1, 2],
      'Columna2': ['A', 'B']}

df = pd.DataFrame(df)

df

Unnamed: 0,Columna1,Columna2
0,1,A
1,2,B


In [185]:
# Iterar sobre las filas.
# El index es el índice de la fila: 0, 1, 2...
# Row es la fila entera y se puede iterar sobre ella.
# En este caso, la Row 0 es [1, A], por ende, Row[0] es 1 y Row[1] es A.

for Index, Row in df.iterrows():
    # Extraigo de cada fila el valor de la Columna1.
    print(f'El valor de la Columna1 de la fila {Index} es: {Row["Columna1"]}')
    print('---')

El valor de la Columna1 de la fila 0 es: 1
---
El valor de la Columna1 de la fila 1 es: 2
---


### __Display__

##### Mostrar todas las filas y/o columnas del df

In [186]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

##### Desactivar la opción de mostrar todo

In [187]:
pd.reset_option('display.max_rows', None)