# Pandas Crash Course

## ¿Qué es Pandas?

La biblioteca Pandas es una de las bibliotecas de Python más populares y utilizadas en la ciencia de los datos y la programación en Python.Sus siglas significan "Python Data Analysis Library" y ha supuesto un gran cambio en la manipulación y el análisis de datos.

Está construida sobre el paquete Numpy, que permite a Python leer conjuntos de datos desde varios formatos, como un archivo CSV, un archivo TSV o una base de datos SQL. 

Ofrece estructuras de datos en 'DataFrame' que permiten leer, almacenar, seleccionar y manipular datos tabulares en filas de observaciones y columnas de variables.  También le permite obtener rápidamente estadísticas como el valor medio de una columna.
 

In [4]:
import pandas as pd
import numpy as np

In [5]:
# levanta un csv
df=pd.read_csv('salaries.csv')
print(df)

     Name  Salary  Age
0    John   50000   34
1   Sally  120000   45
2  Alyssa   80000   27


In [6]:
# guarda un csv 
df.to_csv('donde se quiere guardar y con que nombre.csv',index=False)

In [7]:
# seleccionar una columna
a= df["Salary"]
print(a)

0     50000
1    120000
2     80000
Name: Salary, dtype: int64


In [8]:
# Seleccionar multiples columnas
b=df[['Name','Salary']]
print(b)

     Name  Salary
0    John   50000
1   Sally  120000
2  Alyssa   80000


In [9]:
# Calcular minimo, maximo y media
a= df["Salary"].min()
print(a)
b= df["Salary"].max()
print(b)
c= df["Salary"].mean()
print(c)

50000
120000
83333.33333333333


In [10]:
# Filtrar mediante una o varias condiciones
a=df["Age"]>30 #Creamos un boolean index
print(a)
print (df[a]) # Filtrando
print (df[df["Age"]>30]) # Filtrando en un paso

df[(df.Age > 30) & (df.Salary == 50000)]
df[(df.Age > 30) | (df.Salary == 50000)]
df[~(df.Age > 30) & (df.Salary == 50000)]


0     True
1     True
2    False
Name: Age, dtype: bool
    Name  Salary  Age
0   John   50000   34
1  Sally  120000   45
    Name  Salary  Age
0   John   50000   34
1  Sally  120000   45


Unnamed: 0,Name,Salary,Age


In [11]:
### otras maneras de seleccionar datos 
## iloc selecciona datos por numero de filas
##loc selecciona por labels

# Filas:
print(df.iloc[0]) # Primera fila del DF
print(df.iloc[1]) # Segunda fila del DF
print(df.iloc[-1]) # Ultima fila del DF
# Columnass:
print(df.iloc[:,0]) # Primera columna del DF
print(df.iloc[:,1]) # Segunda columna del DF
print(df.iloc[:,-1]) # Ultima columna del DF

Name       John
Salary    50000
Age          34
Name: 0, dtype: object
Name       Sally
Salary    120000
Age           45
Name: 1, dtype: object
Name      Alyssa
Salary     80000
Age           27
Name: 2, dtype: object
0      John
1     Sally
2    Alyssa
Name: Name, dtype: object
0     50000
1    120000
2     80000
Name: Salary, dtype: int64
0    34
1    45
2    27
Name: Age, dtype: int64


In [12]:
# Seleccionamos las filas con indices 'Andrade'  y 'Veness', junto con todas las columnas entre 'city' e 'email'
data.loc[['Andrade', 'Veness'], 'city':'email']
# Seleccionamos las mismas files, y elegimos algunas columnas
data.loc['Andrade':'Veness', ['first_name', 'address', 'city']]
 
# Cambiamos el indice a partir de la columna 'id'
data.set_index('id', inplace=True)
# Seleccionamos la fila con 'id' = 487
data.loc[487]

NameError: name 'data' is not defined

In [13]:
# Guardamos los valores unicos
a=df["Age"].unique()
# Guardamos el numero de valores unicos
b=df["Age"].nunique()
print (a)
print (b)

[34 45 27]
3


In [14]:
# Guardamos todas las columnas del DF
a=df.columns
print (a)

Index(['Name', 'Salary', 'Age'], dtype='object')


In [15]:
# Mostramos la info del DF
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Salary  3 non-null      int64 
 2   Age     3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 200.0+ bytes


In [16]:
# Reportamos las estadísticas del DF
df.describe()

Unnamed: 0,Salary,Age
count,3.0,3.0
mean,83333.333333,35.333333
std,35118.845843,9.073772
min,50000.0,27.0
25%,65000.0,30.5
50%,80000.0,34.0
75%,100000.0,39.5
max,120000.0,45.0


In [17]:
# Filtramos de nuevo

In [18]:
df[df.Name=='John']

Unnamed: 0,Name,Salary,Age
0,John,50000,34


In [19]:
df[df['Salary']==80000]

Unnamed: 0,Name,Salary,Age
2,Alyssa,80000,27


In [23]:
## apply, agg, transform
#dataframe.agg(): only do aggregate operations
#dataframe.apply() The object is a dataframe
#dataframe.transform() performs a transform operation on each series of dataframe, 
# and the returned structure is consistent with the original dataframe.
df2 = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [np.nan, np.nan, np.nan]],
                columns=['A', 'B', 'C'])

df2.agg(['sum', 'min','max','mean'])

Unnamed: 0,A,B,C
sum,12.0,15.0,18.0
min,1.0,2.0,3.0
max,7.0,8.0,9.0
mean,4.0,5.0,6.0


In [24]:
#Specify the specified aggregation operation for the specified column of dataframe
df2.agg({'A' : ['sum', 'min'], 'B' : ['min', 'max']})

Unnamed: 0,A,B
sum,12.0,
min,1.0,2.0
max,,8.0


In [28]:
#apply
df.apply(np.sum, axis=1)
#  function:
np.random.seed(2764)
df=DataFrame({'M':list('ABCBA'),'N':list('XYZXY'),'J':[1,4,6,7,2],'K':[5,3,3,2,6]})

def func(df):
    return df['J']-df['K']

grouped=df.groupby(df['M']).apply(func)
print(grouped)
#transform
df = pd.DataFrame({'A': range(3), 'B': range(1, 4)})


df.transform(lambda x: x + 1)


 #transform uses multiple custom functions:
df = pd.DataFrame({'A': range(3), 'B': range(1, 4)})
trans=df.transform([np.sqrt, np.exp])

TypeError: can only concatenate str (not "int") to str

In [21]:
### agregar append, merge, join





In [22]:
#df2[df2['E'].isin(['two','four'])]
#df con varias condiciones


In [None]:
##Se elimina la columna D
del df2['D']
#df['nueva col']=valores

### Crear DF vacio

In [32]:
#Se crea el DF con diferentes tipos de Series
df2 = pd.DataFrame({ 'A' : 1,
                     'B' : 2,
                     'C' : 2,
                     'D' : 2,
                     'E' : 2,
                     'F' : 2 }, index=[0])


print("Se visualiza el DF")
df2

Se visualiza el DF


Unnamed: 0,A,B,C,D,E,F
0,1,2,2,2,2,2


In [33]:
df.head()

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45
2,Alyssa,80000,27


In [34]:
df.tail()

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45
2,Alyssa,80000,27


In [35]:
## convertir a json 
#Vamos a convertir nuestro DataFrame a JSON usando to_json que requiere argumentos como:
#orient, que especifica cuáles deben ser los pares de clave y valor. Por defecto es columns (columnas), por lo que el nombre de la columna es la clave y cada columna es el valor.
#date_format que especifica el formato de la fecha. El valor por defecto es epoch.
dfjson = df.to_json()
print(dfjson)

{"Name":{"0":"John","1":"Sally","2":"Alyssa"},"Salary":{"0":50000,"1":120000,"2":80000},"Age":{"0":34,"1":45,"2":27}}
