# Módulo 1

### Contenidos
- [Introducción a Pandas](#Introducción-a-Pandas)
- [Section 2](#Anaconda)
- [Section 3](#Section-3)

# Introducción a Pandas 
------------------------

## ¿Qué es Pandas?

[Pandas](https://pandas.pydata.org/) es una de las bibliotecas de Python más populares y utilizadas en la ciencia de los datos y la programación en Python.Su principal desarrollador es Wes McKinney y sus siglas significan "**Python Data Analysis Library**" y ha supuesto un gran cambio en la manipulación y el análisis de datos.

Está construida sobre el paquete Numpy, que permite a Python leer conjuntos de datos desde varios formatos, como un archivo CSV, un archivo TSV o una base de datos SQL. 

Ofrece estructuras de datos en 'DataFrame' que permiten leer, almacenar, seleccionar y manipular datos tabulares en filas de observaciones y columnas de variables.  También le permite obtener rápidamente estadísticas como el valor medio de una columna.
 

***

Para empezar a utilizar la librería, primero debemos importarla

In [3]:
import pandas as pd

Así podemos leer un archivo **csv**

In [4]:
# levanta un csv
df = pd.read_csv('salaries.csv')
df

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45
2,Alyssa,80000,27
3,Thomas,75000,28
4,Ana,150000,35
5,Emma,95000,24
6,Richard,200000,54
7,Natalie,150000,43
8,Juan,170000,35
9,Liam,245000,33


Para guardar un archivo **csv**

In [6]:
# guarda un csv 
df.to_csv('donde se quiere guardar y con que nombre.csv', index=False)

Para mostrar la información de un DataFrame

In [5]:
# Mostramos la info del DF
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29 entries, 0 to 28
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    29 non-null     object
 1   Salary  29 non-null     int64 
 2   Age     29 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 824.0+ bytes


Para calcular los estadísticos descriptivos de un DataFrame

In [6]:
# Reportamos las estadísticas del DF
df.describe()

Unnamed: 0,Salary,Age
count,29.0,29.0
mean,168931.034483,35.172414
std,101329.353748,8.920558
min,50000.0,20.0
25%,95000.0,28.0
50%,124000.0,33.0
75%,200000.0,43.0
max,400000.0,54.0


Para ver las primeras 5 filas:

In [7]:
df.head()

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45
2,Alyssa,80000,27
3,Thomas,75000,28
4,Ana,150000,35


Para ver las primeras 2:

In [8]:
df.head(2)

Unnamed: 0,Name,Salary,Age
0,John,50000,34
1,Sally,120000,45


Para ver las últimas filas:

In [10]:
df.tail()

Unnamed: 0,Name,Salary,Age
24,Amelia,124000,28
25,Isabella,400000,49
26,Mia,124000,28
27,Evelyn,400000,49
28,Harper,75000,28


In [None]:
Par

In [10]:
print(df.head())
print(df.tail())
print(df.sample(5))

     Name  Salary  Age
0    John   50000   34
1   Sally  120000   45
2  Alyssa   80000   27
3  Thomas   75000   28
4     Ana  150000   35
        Name  Salary  Age
24    Amelia  124000   28
25  Isabella  400000   49
26       Mia  124000   28
27    Evelyn  400000   49
28    Harper   75000   28
   Name  Salary  Age
0  John   50000   34


In [14]:
# Guardamos todas las columnas del DF
a=df.columns
print (a)

Index(['Name', 'Salary', 'Age'], dtype='object')


In [7]:
# seleccionar una columna
a= df["Salary"]
print(a)

0     50000
1    120000
2     80000
Name: Salary, dtype: int64


In [8]:
# Seleccionar multiples columnas
b=df[['Name','Salary']]
print(b)

     Name  Salary
0    John   50000
1   Sally  120000
2  Alyssa   80000


In [13]:
# Guardamos los valores unicos
a=df["Age"].unique()
# Guardamos el numero de valores unicos
b=df["Age"].nunique()
print (a)
print (b)

[34 45 27]
3


In [5]:
# Filtrar mediante una o varias condiciones
a=df["Age"]>30 #Creamos un boolean index
print(a)
print (df[a]) # Filtrando
print (df[df["Age"]>30]) # Filtrando en un paso

0     True
1     True
2    False
Name: Age, dtype: bool
    Name  Salary  Age
0   John   50000   34
1  Sally  120000   45
    Name  Salary  Age
0   John   50000   34
1  Sally  120000   45


In [7]:
## filtrando varias condiciones al vez: & seria "Y" y | seria "O"
df[(df.Age > 30) & (df.Salary == 50000)]
df[(df.Age > 30) | (df.Salary == 50000)]
df[~(df.Age > 30) & (df.Salary == 50000)]

Unnamed: 0,Name,Salary,Age


In [6]:
### otras maneras de seleccionar datos 
## iloc selecciona datos por numero de filas
# Filas:
print(df.iloc[0]) # Primera fila del DF
print(df.iloc[1]) # Segunda fila del DF
print(df.iloc[-1]) # Ultima fila del DF
# Columnass:
print(df.iloc[:,0]) # Primera columna del DF
print(df.iloc[:,1]) # Segunda columna del DF
print(df.iloc[:,-1]) # Ultima columna del DF

Name       John
Salary    50000
Age          34
Name: 0, dtype: object
Name       Sally
Salary    120000
Age           45
Name: 1, dtype: object
Name      Alyssa
Salary     80000
Age           27
Name: 2, dtype: object
0      John
1     Sally
2    Alyssa
Name: Name, dtype: object
0     50000
1    120000
2     80000
Name: Salary, dtype: int64
0    34
1    45
2    27
Name: Age, dtype: int64


In [17]:
# Otras maneras de filtrar
df[df.Name=='John']
df[df['Salary'] >= 80000]

In [9]:
# Se pueden realizar operaciones para las variables
# Calcular minimo, maximo y media
a= df["Salary"].min()
print(a)
b= df["Salary"].max()
print(b)
c= df["Salary"].mean()
print(c)

50000
120000
83333.33333333333


In [9]:
# Supongamos que queremos realizar distintas operaciones a las variables
## apply, agg, transform
#dataframe.agg(): only do aggregate operations
#dataframe.apply() The object is a dataframe
#dataframe.transform() performs a transform operation on each series of dataframe, 
# and the returned structure is consistent with the original dataframe.
df2 = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [np.nan, np.nan, np.nan]],
                columns=['A', 'B', 'C'])
df2

Unnamed: 0,A,B,C
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,,,


In [10]:
#Specify the specified aggregation operation for the specified column of dataframe
df2.agg({'A' : ['sum', 'min'], 'B' : ['min', 'max']}) ## no tiene en cuenta los valores faltantes para la operacion

Unnamed: 0,A,B
sum,12.0,
min,1.0,2.0
max,,8.0


In [11]:
#apply
df2.apply(np.sum, axis=1) ## suma por fila

0     6.0
1    15.0
2    24.0
3     0.0
dtype: float64

In [13]:
## se puede aplicar cualquier funcion 
#  function:
df3 = pd.DataFrame({'M':list('ABCBA'),'N':list('XYZXY'),'J':[1,4,6,7,2],'K':[5,3,3,2,6]})
print(df3)
def func(df):
    return df['J']-df['K']

grouped = df3.groupby(df3['M']).apply(func)
print(grouped)


   M  N  J  K
0  A  X  1  5
1  B  Y  4  3
2  C  Z  6  3
3  B  X  7  2
4  A  Y  2  6
M   
A  0   -4
   4   -4
B  1    1
   3    5
C  2    3
dtype: int64


In [15]:
#transform
df4 = pd.DataFrame({'A': range(3), 'B': range(1, 4)})
print(df4)
df4.transform(lambda x: x + 1) ## a todos los valores sumo 1


   A  B
0  0  1
1  1  2
2  2  3


Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


In [16]:
 #transform uses multiple custom functions:
df4 = pd.DataFrame({'A': range(3), 'B': range(1, 4)})
print(df4)
trans = df4.transform([np.sqrt, np.exp])
print(trans)

   A  B
0  0  1
1  1  2
2  2  3


In [21]:
### agregar append, merge, join





In [None]:
##Se elimina la columna D
del df2['D']
#df['nueva col']=valores

In [35]:
## convertir a json 
#Vamos a convertir nuestro DataFrame a JSON usando to_json que requiere argumentos como:
#orient, que especifica cuáles deben ser los pares de clave y valor. Por defecto es columns (columnas), por lo que el nombre de la columna es la clave y cada columna es el valor.
#date_format que especifica el formato de la fecha. El valor por defecto es epoch.
dfjson = df.to_json()
print(dfjson)

{"Name":{"0":"John","1":"Sally","2":"Alyssa"},"Salary":{"0":50000,"1":120000,"2":80000},"Age":{"0":34,"1":45,"2":27}}
