# Modulo Pandas
<img src = "./images/Pandas_logo.png" height = "200" width = "200">

<br>
<img src = "./images/pandas_2.png" height = "500" width = "500">
<br>

Pandas es un módulo que fue creado en 2008 por Wes McKinney, es un proyecto Open Source con una licencia muy permisiva, tiene una comunidad bastante amplia con más de 100 desarrolladores de código que día a día lo hacen mejor. Pandas es una de las librerías más usadas hoy por hoy en lo que respecta a la ciencia de datos. Esta es una libreria enfocada en el análisis de datos, la cual contiene una serie de estructuras de datos flexibles que permiten tener un manejo más cómodo y eficiente de los datos. Pandas está construida sobre la libreria `NumPy`, por lo que podemos usar los métodos y funcionalidades de los arreglos de numpy. Además, los objetos de pandas van a ser las estructuras de datos con lo cuales vamos a alimentar los algoritmos de Machine Learning.

- Para consultar la documentación oficial de Pandas se puede acceder mediante el siguiente link:

https://pandas.pydata.org/docs/getting_started/index.html   



## Series

Las series son una de las estructuras centrales de Pandas. Puede pensarlas como un cruce entre una lista y un diccionario. Los items son guardados en orden y hay etiquetas con las cuales se puede recuperar los items.

Una forma de visualizarlo es como 2 columnas de datos, el primero es un índice especial, tal y como el `key` de un diccionario y el segundo son los datos.

Notemos que la columna de los datos tiene una etiqueta por sí misma, y puede consultarse usando el atributo `.name` esto es diferente que con los diccionarios, y es bastante útil a la hora de mezclar diferentes tablas de datos.

<img src = "./images/serie.jpg" height = "250" width = "250">

- Así podemos crear una serie:

```Python
import pandas as pd
pd.Series(data = None, index = None, dtype = None, name = None)
```

### Crear una Serie

#### A partir de una lista

In [None]:
from pandas import Series
from numpy import array

In [None]:
lista = [1, 2, 3, True, "palabra"]
array_num = array(lista)
array_num

In [None]:
array_num[0]

In [None]:
lista = [1,2,3,4,5]
serie_num = Series(data = lista, dtype = int, name = "Serie numerica")
serie_num

In [None]:
serie_num[0]

In [None]:
lista = [1, 2, 3, True, "palabra"]
serie_num = Series(data = lista, name = "Serie numerica")
serie_num

In [None]:
serie_num[0]

In [None]:
serie_num[4]

#### A partir de un diccionario

In [None]:
city = ["Medellin", "Cali", "Cartagena"]

dict_city = {
    "Cities": city,
    "Departamento": ["Antioquia", "Valle", "Bolivar"]
}

Series(data = dict_city, 
       name = "Serie de ciudades", 
       dtype = str)

In [None]:
dict_city = {
    0: city,
    1: ["Antioquia", "Valle", "Bolivar"]
}

Series(data = dict_city, 
       name = "Serie de ciudades", 
       dtype = str)

#### A partir de un array

In [None]:
from numpy import arange

In [None]:
test = arange(1,20,1)
Series(test)

### Acceder a datos de una serie

Para acceder a los datos de una Serie se debe realizar mediante el indice:

```Python
Serie[<Indice>]
```

In [None]:
city = ["Medellin", "Cali", "Cartagena"]

dict_city = {
    "Cities": city,
    "Departamento": ["Antioquia", "Valle", "Bolivar"]
}

serie_city = Series(data = dict_city, 
                    name = "Serie de ciudades")

serie_city

In [None]:
var1 = serie_city["Cities"]
var1

### Operaciones de una Serie

Se pueden realizar operaciones y calculos a partir de una Serie, recordemos que Pandas está basado en Numpy, es decir que se pueden utilizar multiples métodos para hacer operaciones como por ejemplo operaciones estadísticas.

In [None]:
serie_n1 = Series([1,2,3,4])
serie_n2 = Series([10,10,10,10])

Se pueden realizar operaciones matematicas simples las cuales se aplican a todos los elementos dentro de la serie, veamos un ejemplo:

In [None]:
serie_n1 + serie_n2

In [None]:
serie_n1 * serie_n2

In [None]:
serie_n1 = Series([1,2,3,4,5])
serie_n2 = Series([10,10,10,10])
total = serie_n1 * serie_n2
total

### Operaciones de una o mas Series

Tambien se puede operar dos o mas Series como vemos a continuación:

In [None]:
serie_n1 = Series([1,2,3,4])
serie_n2 = Series([10,10,10,10])
serie_n3 = Series([1.0,2454,333,5454])

total = serie_n1 * serie_n2 / serie_n3
total

**Nota:**

Tener cuidado con los tamaños de la Series a la hora de realizar operaciones entre ellas

### Ejercicio

Hacer un programa que pregunte a un usuario por las ventas de un rango de años, y muestre por pantalla una serie con los datos de las ventas, donde el indice de la serie debe ser el año que corresponde a la venta, luego, a esa misma serie apliquele un descuento del 10% a cada una de las ventas por año.

- Para pedir un dato de entrada por pantalla utilice el método input(), recuerde que este método devuelve siempre un string de datos

In [None]:
inicio = int(input("Ingrese el año de inicio: "))
fin = int(input("Ingrese el año final: "))
dict_aux = {}

for key_ in range(inicio, fin + 1):
    dict_aux[key_] = float(input(f"Ingrese el total de ventas de año {key_}: "))
    
result = Series(dict_aux)
result*0.9

### DataFrames

El DataFrame es una estructura de datos que podría bien ser considerada el corazón de el módulo de Pandas. Es el objeto primario con el cual un analista de datos en python puede encontrarse trabajando.

Uno puede pensar en un DataFrame como aquello donde tenemos un índice y múltiples columnas, donde cada columna tendrá una etiqueta y su respectivo índice. Existen multiples formas de hacer un DataFrame, podemos usar un grupo de series, donde cada representaría una fila de datos o también podríamos usar diccionarios de datos.

**Etructura de un DataFrame:**

<img src = "./images/dataframe.jpg" height = "550" width = "550">

### Crear un DataFrame

Para crear un DataFrame se puede utilizar el siguiente método de Pandas, donde se puede crear a partir de un diccionario de datos de una o múltiples series


```Python
import pandas as pd
pd.DataFrame(data = None, index = None, columns = None, dtype = None)
```

#### Apartir de una serie

In [None]:
from pandas import DataFrame

datos = Series({
    "Antioquia": "Medellin",
    "Valle": "Cali",
    "Meta": "Villavicencio"
})

datos

In [None]:
DataFrame(data = datos, columns = ["Ciudades"])

#### Apartir de múltiples Series

In [None]:
datos_1 = Series({
    "Antioquia": "Medellin",
    "Valle": "Cali",
    "Meta": "Villavicencio"
})

datos_2 = Series({
    "Antioquia": "Caldas",
    "Valle": "Yumbo",
    "Meta": "Macarena",
})

DataFrame(data = [datos_1, datos_2])

In [None]:
datos_1 = Series({
    "Antioquia": "Medellin",
    "Valle": "Cali",
    "Meta": "Villavicencio"
})

datos_2 = Series({
    "Antioquia": "Caldas",
    "Valle": "Yumbo",
    "Meta": "Macarena",
    "Cundimarca": "Bogota"
})

DataFrame(data = [datos_1, datos_2])

#### Apartir de un diccionario de datos

In [None]:
dict_datos = {
    "nombre": ["David", "Juan", "Sara"],
    "apellido": ["Piedrahita", "Perez", "Montoya"],
    "residencia": ["Aranjuez", "Robledo", "Castilla"]
}

dict_datos

In [None]:
display(DataFrame(dict_datos))
display(DataFrame(dict_datos))
display(DataFrame(dict_datos))

### Acceder a las columnas de un DataFrame

In [None]:
df_test = DataFrame(dict_datos)
df_test

In [None]:
df_test["nombre"]

In [None]:
df_test["nombre"][0]

In [None]:
df_test[["nombre"]]

### Acceder a filas de un DataFrame

In [None]:
df_test

In [None]:
df_test[0:2]

In [None]:
df_test[2:3]

### Operaciones con Dataframes

Al igual que las Series, a los DataFrames tambien se le pueden realizar operaciones de Numpy y operaciones matemáticas

In [None]:
dict_datos = {
    "nombre": ["David", "Juan", "Sara"],
    "apellido": ["Piedrahita", "Perez", "Montoya"],
    "Materia": ["Matematicas", "Matematicas", "Matematicas"],
    "Nota": [4.5, 3.6, 4.4]
}

df_notas = DataFrame(dict_datos)
df_notas

In [None]:
nota_max = df_notas["Nota"].max()
print(f"La mejor nota es: {nota_max}")

In [None]:
nota_min = df_notas["Nota"].min()
print(f"La menor nota es: {nota_min}")

In [None]:
nota_mean = df_notas["Nota"].mean()
print(f"La nota promedio es: {nota_mean}")

### Crear columna nueva

In [None]:
df_notas

In [None]:
df_notas["Nota_prom"] = df_notas["Nota"].mean()
df_notas

In [None]:
df_notas[["Nota", "apellido"]]

### Modificar una columna ya creada

In [None]:
df_notas["Nota"] = df_notas["Nota"] + 0.5
df_notas

# Lectura de Datos con Pandas
<br>
<img src = "./images/pandas_read.jpg" height = "550" width = "550">
<br>

Pandas permite leer múltiples tipos de archivos como xls, xlsx, csv, txt, json y entre otros. el archivo más común y fácil de leer es el tipo csv o txt.

Para leer datos con Pandas se utiliza el siguiente método:

```Python
import pandas as pd

pd.read_csv()
pd.read_excel()
pd.read_json()
      .
      .
      .
```

Existen múltiples páginas web que permiten descargar datos abiertos que pueden ser utilizados para hacer análisis de datos, algunas de ellas son:

- Datos Abiertos del **Gobierno**: https://www.datos.gov.co/browse?sortBy=newest
- Datos Abiertos de **MinTIC**: https://colombiatic.mintic.gov.co/679/w3-propertyvalue-36342.html
- Datos Abiertos de **Kaggle**: https://www.kaggle.com/datasets

Para aprender acerca de Python:

- https://realpython.com/
- https://www.datacamp.com/
- https://www.dataquest.io/
- https://www.udacity.com/
- https://www.coderhouse.com.co/
- https://platzi.com/

## Leer archivo CSV

In [16]:
from pandas import read_csv

In [19]:
path = r"C:\Users\usuario1\Desktop\Eafit\grupo_DS_NB_G07\datasets\Automobile_data.csv"
df = read_csv(path, sep = "|")
df

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
200,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470


## Leer archivo tipo json

JSON o JavaScript Object Notation es un formato de intercambio de Datos. JSON surgió de la necesidad de un protocolo de comunicación de servidor a navegador en tiempo real y es uno de los formatos más utilizados para tal fin.

In [1]:
from pandas import read_json

In [2]:
df_json = read_json(r"C:\Users\usuario1\Desktop\Eafit\grupo_DS_NB_G07\datasets\resultados_electorales.json")
df_json

Unnamed: 0,ncircunscripcion,ndepto,nmpio,zz,pp,npuesto,mesa,candidato,votos,partido
0,INDIGENAS,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,15,VOTOS EN BLANCO,1,
1,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,SOLO POR EL PARTIDO,12,PARTIDO LIBERAL COLOMBIANO
2,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,EDUAR LUIS BENJUMEA MORENO,18,PARTIDO LIBERAL COLOMBIANO
3,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,MELQUI ANDRES MARIN ELIZALDE,3,PARTIDO LIBERAL COLOMBIANO
4,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,HASSAM CANO DE LA CRUZ,8,PARTIDO LIBERAL COLOMBIANO
...,...,...,...,...,...,...,...,...,...,...
995,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,YESIKA LARRAÑAGA,2,PARTIDO ALIANZA VERDE
996,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,SOLO POR EL PARTIDO,1,PARTIDO POLÍTICO MIRA
997,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,SOLO POR EL PARTIDO,3,PARTIDO SOCIAL DE UNIDAD NACIONAL PARTIDO DE LA U
998,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,HAROLD AUGUSTO VALENCIA INFANTE,15,PARTIDO SOCIAL DE UNIDAD NACIONAL PARTIDO DE LA U


## Leer archivo de Excel

Los archivos de Excel son de los más comunes y etsos pueden leerse de la siguiente forma:

In [12]:
from pandas import read_excel, DataFrame, concat

In [6]:
path = r"C:\Users\usuario1\Desktop\Eafit\grupo_DS_NB_G07\datasets\Tasa_de_Cambio_Representativa_del_Mercado-_TRM.xlsx"
df_excel = read_excel(path, sheet_name = "Abril")
df_excel

Unnamed: 0,VALOR,UNIDAD,VIGENCIADESDE,VIGENCIAHASTA
0,4054.54,COP,2020-04-01,2020-04-01
1,4081.06,COP,2020-04-02,2020-04-02
2,4065.5,COP,2020-04-03,2020-04-03
3,4008.78,COP,2020-04-04,2020-04-06
4,3978.38,COP,2020-04-07,2020-04-07
5,3910.15,COP,2020-04-08,2020-04-08
6,3886.79,COP,2020-04-09,2020-04-13
7,3870.31,COP,2020-04-14,2020-04-14
8,3858.21,COP,2020-04-15,2020-04-15
9,3920.83,COP,2020-04-16,2020-04-16


In [13]:
df_completo = DataFrame()
sheet_names = ["Enero","Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio"]
for mes in sheet_names:
    
    df_aux = read_excel(path, sheet_name = mes)
    df_completo = concat([df_completo, df_aux], axis = 0)
    
df_completo

## Leer archivo txt

In [17]:
path = r"C:\Users\usuario1\Desktop\Eafit\grupo_DS_NB_G07\datasets\Data DS Cotton Plus_new_2.txt"
df = read_csv(path, sep = ",")
df

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800.0,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900.0,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800.0,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800.0,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9971,9972,Nombre Cliente 9972,Aficionados,Si,No,191260.0,4,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
9972,9973,Nombre Cliente 9973,Aficionados,Si,No,371600.0,5,0.0,0,10100,...,,,0,0,0,0,0,0,0,0
9973,9974,Nombre Cliente 9974,Aficionados,Si,No,254960.0,3,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
9974,9975,Nombre Cliente 9975,Esporádicos,Si,No,159920.0,1,0.0,0,10001,...,,,0,0,0,0,0,0,0,0


## Formas de leer un directorio

Existen múltiples maneras de leer un directorio que se ecnuentra local en el PC, a continuación veremos las 3 formas mas scencillas y simples para apuntar a un directorio específico

### Forma 1

In [None]:
path = "athletes.csv"
df_athletes = read_csv(path, sep = ",")
df_athletes

### Forma 2

Como vimos anteriormente se quema la dirección del path y antes de las comillas iniciales se pone la letra `"r"`

In [21]:
path = r"C:\Users\usuario1\Desktop\Eafit\grupo_DS_NB_G07\datasets\athletes.csv"
df_athletes = read_csv(path, sep = ",")
df_athletes

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,male,11/26/90,1.81,71.0,cycling,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
11533,265605954,Zurian Hechavarria,CUB,female,8/10/95,1.64,58.0,athletics,0,0,0
11534,214461847,Zuzana Hejnova,CZE,female,12/19/86,1.73,63.0,athletics,0,0,0
11535,88361042,di Xiao,CHN,male,5/14/91,1.85,100.0,wrestling,0,0,0
11536,900065925,le Quoc Toan Tran,VIE,male,4/5/89,1.60,56.0,weightlifting,0,0,0


### Forma 3

En lugar de poner la r antes de las comillas se puede duplicar el `"\"` de la siguiente forma:

In [23]:
path = "C:\\Users\\usuario1\\Desktop\\Eafit\\grupo_DS_NB_G07\\datasets\\athletes.csv"
df_athletes = read_csv(path, sep = ",")
df_athletes

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,male,11/26/90,1.81,71.0,cycling,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
11533,265605954,Zurian Hechavarria,CUB,female,8/10/95,1.64,58.0,athletics,0,0,0
11534,214461847,Zuzana Hejnova,CZE,female,12/19/86,1.73,63.0,athletics,0,0,0
11535,88361042,di Xiao,CHN,male,5/14/91,1.85,100.0,wrestling,0,0,0
11536,900065925,le Quoc Toan Tran,VIE,male,4/5/89,1.60,56.0,weightlifting,0,0,0


### Forma 4

Se puede cambiar el `"/"` por un `"\"`, así:

In [24]:
path = "C:/Users/usuario1/Desktop/Eafit/grupo_DS_NB_G07/datasets/athletes.csv"
df_athletes = read_csv(path, sep = ",")
df_athletes

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,male,11/26/90,1.81,71.0,cycling,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
11533,265605954,Zurian Hechavarria,CUB,female,8/10/95,1.64,58.0,athletics,0,0,0
11534,214461847,Zuzana Hejnova,CZE,female,12/19/86,1.73,63.0,athletics,0,0,0
11535,88361042,di Xiao,CHN,male,5/14/91,1.85,100.0,wrestling,0,0,0
11536,900065925,le Quoc Toan Tran,VIE,male,4/5/89,1.60,56.0,weightlifting,0,0,0


### Forma 5

In [30]:
import os

In [40]:
main_path = "C:/Users/usuario1/Desktop/Eafit/grupo_DS_NB_G07/"
file_path = "datasets"
file_io = "Bengaluru_House_Data.csv"

full_path = os.path.join(main_path, file_path, file_io)
df_house_data = read_csv(full_path, sep = ",")

df_house_data

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.00
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.00
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.00
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51.00
...,...,...,...,...,...,...,...,...,...
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231.00
13316,Super built-up Area,Ready To Move,Richards Town,4 BHK,,3600,5.0,,400.00
13317,Built-up Area,Ready To Move,Raja Rajeshwari Nagar,2 BHK,Mahla T,1141,2.0,1.0,60.00
13318,Super built-up Area,18-Jun,Padmanabhanagar,4 BHK,SollyCl,4689,4.0,1.0,488.00


# Algunos métodos y atributos básicos con DataFrames

Como vimos anteriormente, se pueden realizar operaciones con DataFrames, acontinuación veremos otrso métodos asociados a los DataFrames que son bastante útiles, como resetear indices, eliminar columnas y entre otros

## Resetear indices

Este método es muy útil ya que permite resetear los indices de un DataFrame utilizando el método `reset_index()`, puede consultar la documentación en el siguiente link:

- https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.DataFrame.reset_index.html

In [41]:
df_house_data["index"] = 0
df_house_data.set_index("index", drop = True, inplace = True)

In [42]:
df_house_data = df_house_data.reset_index(drop = True)
df_house_data

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.00
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.00
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.00
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51.00
...,...,...,...,...,...,...,...,...,...
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231.00
13316,Super built-up Area,Ready To Move,Richards Town,4 BHK,,3600,5.0,,400.00
13317,Built-up Area,Ready To Move,Raja Rajeshwari Nagar,2 BHK,Mahla T,1141,2.0,1.0,60.00
13318,Super built-up Area,18-Jun,Padmanabhanagar,4 BHK,SollyCl,4689,4.0,1.0,488.00


In [50]:
df_house_data.reset_index(drop = True, inplace = True)
df_house_data

Unnamed: 0,location,society,bath,balcony,price
0,Electronic City Phase II,Coomee,2.0,1.0,39.07
1,Chikka Tirupathi,Theanmp,5.0,3.0,120.00
2,Uttarahalli,,2.0,3.0,62.00
3,Lingadheeranahalli,Soiewre,3.0,1.0,95.00
4,Kothanur,,2.0,1.0,51.00
...,...,...,...,...,...
13315,Whitefield,ArsiaEx,4.0,0.0,231.00
13316,Richards Town,,5.0,,400.00
13317,Raja Rajeshwari Nagar,Mahla T,2.0,1.0,60.00
13318,Padmanabhanagar,SollyCl,4.0,1.0,488.00


## Eliminar filas o columnas

Para ello utilizaremos el método `drop()` el cual permite eliminar una fila o una columna, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html

### Eliminar columna

In [43]:
df_house_data = df_house_data.drop(["total_sqft"], axis = 1)
df_house_data

Unnamed: 0,area_type,availability,location,size,society,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,5.0,3.0,120.00
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,2.0,3.0,62.00
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,3.0,1.0,95.00
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,2.0,1.0,51.00
...,...,...,...,...,...,...,...,...
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,4.0,0.0,231.00
13316,Super built-up Area,Ready To Move,Richards Town,4 BHK,,5.0,,400.00
13317,Built-up Area,Ready To Move,Raja Rajeshwari Nagar,2 BHK,Mahla T,2.0,1.0,60.00
13318,Super built-up Area,18-Jun,Padmanabhanagar,4 BHK,SollyCl,4.0,1.0,488.00


In [45]:
### Nota: no utilizar este metodo para eliminar columnas que no existen
df_house_data = df_house_data.drop(["total_sqft"], axis = 1)
df_house_data

In [46]:
df_house_data = df_house_data.drop(["availability", "size", "size"], axis = 1)
df_house_data

Unnamed: 0,area_type,location,society,bath,balcony,price
0,Super built-up Area,Electronic City Phase II,Coomee,2.0,1.0,39.07
1,Plot Area,Chikka Tirupathi,Theanmp,5.0,3.0,120.00
2,Built-up Area,Uttarahalli,,2.0,3.0,62.00
3,Super built-up Area,Lingadheeranahalli,Soiewre,3.0,1.0,95.00
4,Super built-up Area,Kothanur,,2.0,1.0,51.00
...,...,...,...,...,...,...
13315,Built-up Area,Whitefield,ArsiaEx,4.0,0.0,231.00
13316,Super built-up Area,Richards Town,,5.0,,400.00
13317,Built-up Area,Raja Rajeshwari Nagar,Mahla T,2.0,1.0,60.00
13318,Super built-up Area,Padmanabhanagar,SollyCl,4.0,1.0,488.00


In [48]:
try:
    df_house_data = df_house_data.drop(["availability", "size", "size"], axis = 1)
except:
    print("Hay columnas que no existen, por lo tanto no se lograron eliminar")

Hay columnas que no existen, por lo tanto no se lograron eliminar


Algunos métodos de Pandas tienen un parametro llamado `inplace` el cual permite aplicar el método sin necesidad de hacer una asignación

In [49]:
df_house_data.drop(["area_type"], axis = 1, inplace = True)
df_house_data

Unnamed: 0,location,society,bath,balcony,price
0,Electronic City Phase II,Coomee,2.0,1.0,39.07
1,Chikka Tirupathi,Theanmp,5.0,3.0,120.00
2,Uttarahalli,,2.0,3.0,62.00
3,Lingadheeranahalli,Soiewre,3.0,1.0,95.00
4,Kothanur,,2.0,1.0,51.00
...,...,...,...,...,...
13315,Whitefield,ArsiaEx,4.0,0.0,231.00
13316,Richards Town,,5.0,,400.00
13317,Raja Rajeshwari Nagar,Mahla T,2.0,1.0,60.00
13318,Padmanabhanagar,SollyCl,4.0,1.0,488.00


## Ordenar valores de una columna

Con el método `sort_values()` se pueden ordenar de forma ascendente o descendente los valores de una columna, por defecto ordenará los valores de forma ascendente, puede consultar la documentación en el siguientev link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html

In [51]:
df_house_data.sort_values(by = ["price"], inplace = True)
df_house_data

Unnamed: 0,location,society,bath,balcony,price
10526,Yelahanka New Town,KHatsFl,1.0,1.0,8.00
11569,Hosur Road,AVeldun,,,8.44
8594,Chandapura,,1.0,1.0,9.00
5410,Attibele,Jae 1hu,1.0,1.0,10.00
4113,BTM Layout,,3.0,2.0,10.00
...,...,...,...,...,...
3180,Shanthala Nagar,Kierser,5.0,3.0,2700.00
11763,Sadashiva Nagar,,7.0,2.0,2736.00
13200,Defence Colony,,6.0,3.0,2800.00
11080,Ashok Nagar,,5.0,2.0,2912.00


In [56]:
df_house_data.sort_values(by = ["price"], inplace = True, ascending = False)
df_house_data.reset_index(drop = True, inplace = True)
df_house_data

Unnamed: 0,location,society,bath,balcony,price
0,Defence Colony,,13.0,,3600.00
1,Ashok Nagar,,5.0,2.0,2912.00
2,Defence Colony,,6.0,3.0,2800.00
3,Sadashiva Nagar,,7.0,2.0,2736.00
4,Shanthala Nagar,Kierser,5.0,3.0,2700.00
...,...,...,...,...,...
13315,Alur,,2.0,1.0,10.00
13316,Chandapura,,1.0,1.0,10.00
13317,Chandapura,,1.0,1.0,9.00
13318,Hosur Road,AVeldun,,,8.44


In [57]:
df_house_data = df_house_data.sort_values(by = ["price"], ascending = False).reset_index(drop = True)
df_house_data

Unnamed: 0,location,society,bath,balcony,price
0,Defence Colony,,13.0,,3600.00
1,Ashok Nagar,,5.0,2.0,2912.00
2,Defence Colony,,6.0,3.0,2800.00
3,Sadashiva Nagar,,7.0,2.0,2736.00
4,Shanthala Nagar,Kierser,5.0,3.0,2700.00
...,...,...,...,...,...
13315,Alur,,2.0,1.0,10.00
13316,Chandapura,,1.0,1.0,10.00
13317,Chandapura,,1.0,1.0,9.00
13318,Hosur Road,AVeldun,,,8.44


## Metodos y Atributos de informacion

- **type**: Sirve para saber el tipo de dato del objeto
- **dtypes**: devuelve el tipo de dato de cada columna del DataFrame
- **shape**: nos dice la forma del DataFrame, es decir, la cantidad de filas y de columnas
- **info**: Devuelve información básica del DataFrame, como el tipo de dato de cada columna, las de columnas del dataset, memoria que ocupa el dataset y entre otros 

### type

In [93]:
main_path = "C:/Users/usuario1/Desktop/Eafit/grupo_DS_NB_G07/"
file_path = "datasets"
file_io = "Bengaluru_House_Data.csv"

full_path = os.path.join(main_path, file_path, file_io)
df_house_data = read_csv(full_path, sep = ",")

In [58]:
type(df_house_data)

pandas.core.frame.DataFrame

### dtypes

In [61]:
df_house_data.dtypes

area_type        object
availability     object
location         object
size             object
society          object
total_sqft       object
bath            float64
balcony         float64
price           float64
dtype: object

### shape

In [63]:
df_house_data.shape

(13320, 9)

### info

In [64]:
df_house_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13320 entries, 0 to 13319
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   area_type     13320 non-null  object 
 1   availability  13320 non-null  object 
 2   location      13319 non-null  object 
 3   size          13304 non-null  object 
 4   society       7818 non-null   object 
 5   total_sqft    13320 non-null  object 
 6   bath          13247 non-null  float64
 7   balcony       12711 non-null  float64
 8   price         13320 non-null  float64
dtypes: float64(3), object(6)
memory usage: 936.7+ KB


## Resumen estadístico del Dataset

Pandas ofrece una forma rápida de calcular alguna medidas de tendencia central, dipersión y entre otras con el método `describe()`, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html

### Para variables numéricas

In [65]:
df_house_data.describe()

Unnamed: 0,bath,balcony,price
count,13247.0,12711.0,13320.0
mean,2.69261,1.584376,112.565627
std,1.341458,0.817263,148.971674
min,1.0,0.0,8.0
25%,2.0,1.0,50.0
50%,2.0,2.0,72.0
75%,3.0,2.0,120.0
max,40.0,3.0,3600.0


### Para variables categóricas

In [66]:
df_house_data.describe(include = "O")

Unnamed: 0,area_type,availability,location,size,society,total_sqft
count,13320,13320,13319,13304,7818,13320
unique,4,81,1305,31,2688,2117
top,Super built-up Area,Ready To Move,Whitefield,2 BHK,GrrvaGr,1200
freq,8790,10581,540,5199,80,843


### Método Unique()

In [70]:
df_house_data["area_type"].unique()

array(['Super built-up  Area', 'Plot  Area', 'Built-up  Area',
       'Carpet  Area'], dtype=object)

## Transponer DataFrame

Cuando se transpone un DataFrame las columnas toman el lugar del index, así:

In [74]:
df_house_data.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
bath,13247.0,2.69261,1.341458,1.0,2.0,2.0,3.0,40.0
balcony,12711.0,1.584376,0.817263,0.0,1.0,2.0,2.0,3.0
price,13320.0,112.565627,148.971674,8.0,50.0,72.0,120.0,3600.0


In [75]:
df_house_data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
bath,13247.0,2.69261,1.341458,1.0,2.0,2.0,3.0,40.0
balcony,12711.0,1.584376,0.817263,0.0,1.0,2.0,2.0,3.0
price,13320.0,112.565627,148.971674,8.0,50.0,72.0,120.0,3600.0


## Conteo de clases de una variable categórica Value_counts()

Se puede utilizar el método `value_counts()` para contar la cantidad de registros asociadas a cada una de las clases de una variable categórica, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.value_counts.html

In [76]:
df_house_data["area_type"].value_counts()

Super built-up  Area    8790
Built-up  Area          2418
Plot  Area              2025
Carpet  Area              87
Name: area_type, dtype: int64

In [81]:
DataFrame(df_house_data["size"].value_counts()).reset_index()

Unnamed: 0,index,size
0,2 BHK,5199
1,3 BHK,4310
2,4 Bedroom,826
3,4 BHK,591
4,3 Bedroom,547
5,1 BHK,538
6,2 Bedroom,329
7,5 Bedroom,297
8,6 Bedroom,191
9,1 Bedroom,105


In [None]:
df_house_data["location"].value_counts()

## Renombrar columnas

A veces resulta siendo útil renombrar las columnas de un dataset, para ello se utiliza el método `rename()`, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html

In [82]:
DataFrame(df_house_data["size"].value_counts()).reset_index()

Unnamed: 0,index,size
0,2 BHK,5199
1,3 BHK,4310
2,4 Bedroom,826
3,4 BHK,591
4,3 Bedroom,547
5,1 BHK,538
6,2 Bedroom,329
7,5 Bedroom,297
8,6 Bedroom,191
9,1 Bedroom,105


In [83]:
col_names = {
    "index": "size",
    "size": "count"
}

DataFrame(df_house_data["size"].value_counts()).reset_index().rename(columns = col_names)

Unnamed: 0,size,count
0,2 BHK,5199
1,3 BHK,4310
2,4 Bedroom,826
3,4 BHK,591
4,3 Bedroom,547
5,1 BHK,538
6,2 Bedroom,329
7,5 Bedroom,297
8,6 Bedroom,191
9,1 Bedroom,105


## Extraer los nombres de todas las columnas del dataset

Con el atributo `columns`, se puede extraer todos los nombres de las columnas del dataset, este retorna una lista co

In [86]:
df_house_data.columns

Index(['area_type', 'availability', 'location', 'size', 'society',
       'total_sqft', 'bath', 'balcony', 'price'],
      dtype='object')

### Método tolist() y list()

In [88]:
df_house_data.columns.tolist()

['area_type',
 'availability',
 'location',
 'size',
 'society',
 'total_sqft',
 'bath',
 'balcony',
 'price']

In [89]:
list(df_house_data.columns)

['area_type',
 'availability',
 'location',
 'size',
 'society',
 'total_sqft',
 'bath',
 'balcony',
 'price']

## Castear tipo de dato de una columna del dataset

Se puede cambiar el tipo de datos de una columna específica mediante el método `astype()`, puede leer la documentación en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html

In [94]:
df_house_data["price"] = df_house_data["price"].astype(str)

In [100]:
df_house_data

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.0
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.0
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.0
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51.0
...,...,...,...,...,...,...,...,...,...
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231.0
13316,Super built-up Area,Ready To Move,Richards Town,4 BHK,,3600,5.0,,400.0
13317,Built-up Area,Ready To Move,Raja Rajeshwari Nagar,2 BHK,Mahla T,1141,2.0,1.0,60.0
13318,Super built-up Area,18-Jun,Padmanabhanagar,4 BHK,SollyCl,4689,4.0,1.0,488.0


In [101]:
df_house_data["price"] = df_house_data["price"].astype(float)

### Método to_csv()

In [109]:
df_house_data["price_mean"] = df_house_data["price"].mean()
df_house_data

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price,price_mean
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39,112.462538
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120,112.462538
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62,112.462538
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95,112.462538
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51,112.462538
...,...,...,...,...,...,...,...,...,...,...
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231,112.462538
13316,Super built-up Area,Ready To Move,Richards Town,4 BHK,,3600,5.0,,400,112.462538
13317,Built-up Area,Ready To Move,Raja Rajeshwari Nagar,2 BHK,Mahla T,1141,2.0,1.0,60,112.462538
13318,Super built-up Area,18-Jun,Padmanabhanagar,4 BHK,SollyCl,4689,4.0,1.0,488,112.462538


In [110]:
df_house_data.to_csv("ensayo_eliminar.csv")

In [112]:
df_house_data.to_csv("ensayo_eliminar.csv", index = False)

### Método head() y tail()

In [123]:
df_house_data.head()

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price,price_mean
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39,112.462538
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120,112.462538
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62,112.462538
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95,112.462538
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51,112.462538


In [126]:
df_house_data.tail()

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price,price_mean
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231,112.462538
13316,Super built-up Area,Ready To Move,Richards Town,4 BHK,,3600,5.0,,400,112.462538
13317,Built-up Area,Ready To Move,Raja Rajeshwari Nagar,2 BHK,Mahla T,1141,2.0,1.0,60,112.462538
13318,Super built-up Area,18-Jun,Padmanabhanagar,4 BHK,SollyCl,4689,4.0,1.0,488,112.462538
13319,Super built-up Area,Ready To Move,Doddathoguru,1 BHK,,550,1.0,1.0,17,112.462538


# Operadores en Python

## Operadores aritméticos

Este tipo de operadores permite ejecutar operaciones aritméticas entre operandos.

|Operador|Descripción|Ejemplo|
|-|-|-|
|+|Suma los operandos| var1 + var2|
|-|Resta los operandos| var1 - var2|
|*|Multiplica los operandos| var1 * var2|
|/|Divide los operandos| var1 / var2|
|%|Halla el módulo entre los operandos| var1 % var2|
|**|Realiza cálculos de potencia entre los operandosrecho| var1**var2|
|//|Divide de forma entera  los operandos| var1 // var2|

## Operadores de asignación 

Este tipo de operadores permite la asignación entre operandos y son básicamente variaciones del operador "="

<font face="Verdana">

|Operador|Descripción|Ejemplo|
|-|-|-|
|=|Asigna al operando izquierdo el valor del operando derecho| var = 5 + 4|
|+=|Suma al operando izquierdo el valor del operando derecho| var += 5|
|-=|Resta al operando izquierdo el valor del operando derecho| var -= 5|
|*=|Multiplica el operando izquierdo con el valor del operando derecho| var *= 5|
|/=|Divide el operando izquierdo con el valor del operando derecho| var /= 5|
|**=|Eleva al operando izquierdo al valor del operando derecho| var **= 5|
|//=|Divide en forma entera al operando izquierdo con el valor del operando derecho| c //= 5|
|%=|Calcula el módulo entre el operando izquierdo y el derecho operando derecho| var %= 5|

## Operadores relacionales 

Este tipo de operadores permite comparar entre operandos y su resultado siempre es una variable booleana. 

|Operador|Descripción|Ejemplo|
|-|-|-|
|==|Evalua si los valores de los operandos sean iguales| var1 == var2|
|!=|Evalua si los valores de los operandos sean diferentes| var1 != var2|
|>|Evalua si el valor de operando de la izquierda es mayor que el de la derecha| var1 > var2|
|<|Evalua si el valor de operando de la izquierda es menor que el de la derecha| var1 > var2|
|>=|Evalua si el valor de operando de la izquierda es mayor o igual que el de la derecha| var1 >= var2|
|<=|Evalua si el valor de operando de la izquierda es menor o igual que el de la derecha| var1 <= var2|

## Operadores bitwise

Los operadores realizan operaciones bit a bit. Los operandos se consideran como dígitos binarios sobre los que se realizan operaciones bit a bit.

<font face="Verdana">

|Operador|Descripción|Ejemplo|
|-|-|-|
|&|Evalua bit a bit de los operandos y es 1 cuando ambos bits son 1| var1 & var2|
| \| |Evalua bit a bit de los operandos y es 0 cuando ambos bits son 0| var1 \| var2|
|^|Evalua bit a bit de los operandos y es 0 cuando ambos bits son 1 o  0| var1 ^ var2|
|~|Regresa el complemento de a uno de un número. También funciona como una negación| ~var1|


## Operadores lógicos 

Este tipo de operadores permite comparar sentencias entre operandos y su resultado siempre es una variable booleana. 

<font face="Verdana">

|Operador|Descripción|Ejemplo|
|-|-|-|
|and|Evalua los operandos y sólo es verdadero cuando ambos son verdaderos| var1 and var2|
|or|Evalua los operandos y sólo es falso cuando ambos son falsos| var1 or var2|
|not|Negación del operando| not var1|

## Operadores de identidad y pertenencia 

Este tipo de operadores permite comparar entre direcciones de operandos y su contenido, su resultado siempre es una variable booleana. 

|Operador|Descripción|Ejemplo|
|-|-|-|
|is|Evalua si las direcciones de los operandos son iguales| var1 is var2|
|is not|Evalua si las direcciones de los operandos son iguales| var1 is not var2|
|in|Evalua si un valor está contenido (o pertenece) en otro| var1 in var2|
|not in|Evalua si un valor no está contenido (o pertenece) en otro| var1 not in var2|

# Filtros y slices

In [25]:
from pandas import read_csv, DataFrame
import os

In [26]:
main_path = "C:/Users/usuario1/Desktop/Eafit/grupo_DS_NB_G07/"
file_path = "datasets"
file_io = "Bengaluru_House_Data.csv"
full_path = os.path.join(main_path, file_path, file_io)
df_house_data = read_csv(full_path, sep = ",")
df_house_data.head()

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
0,Super built-up Area,19-Dec,Electronic City Phase II,2 BHK,Coomee,1056,2.0,1.0,39.07
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.0
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.0
3,Super built-up Area,Ready To Move,Lingadheeranahalli,3 BHK,Soiewre,1521,3.0,1.0,95.0
4,Super built-up Area,Ready To Move,Kothanur,2 BHK,,1200,2.0,1.0,51.0


In [27]:
df_house_data[
    (df_house_data["area_type"] == "Built-up  Area") & 
    (df_house_data["society"] == "AdingSV") & 
    (df_house_data["bath"] == 1) & 
    (df_house_data["balcony"] == 0)
]

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
2841,Built-up Area,Ready To Move,Neeladri Nagar,1 BHK,AdingSV,527,1.0,0.0,26.0


In [28]:
df_house_data[
    (df_house_data["area_type"] == "Built-up  Area") & 
    (df_house_data["price"] == 11)
]

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
942,Built-up Area,Ready To Move,Attibele,1 BHK,Jae 2hu,400,1.0,1.0,11.0


In [29]:
df_house_data[
    (df_house_data["area_type"] == "Built-up  Area") | 
    (df_house_data["price"] == 11)
]

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.0
13,Built-up Area,Ready To Move,Gottigere,2 BHK,,1100,2.0,2.0,40.0
20,Built-up Area,Ready To Move,Kengeri,1 BHK,,600,1.0,1.0,15.0
27,Built-up Area,20-Dec,Whitefield,3 BHK,,1610,3.0,2.0,81.0
34,Built-up Area,Ready To Move,Kasturi Nagar,3 BHK,Kantsce,1925,3.0,,125.0
...,...,...,...,...,...,...,...,...,...
13280,Built-up Area,Ready To Move,Sarjapur,3 BHK,,1425,3.0,2.0,57.0
13307,Built-up Area,Ready To Move,Billekahalli,3 BHK,,1805,3.0,3.0,134.0
13308,Built-up Area,Ready To Move,Bannerghatta Road,3 BHK,Baanise,1527,3.0,1.0,142.0
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231.0


In [34]:
df_house_data[
    (df_house_data["area_type"] == "Built-up  Area") | 
    (df_house_data["area_type"] == "Plot  Area")
]

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
1,Plot Area,Ready To Move,Chikka Tirupathi,4 Bedroom,Theanmp,2600,5.0,3.0,120.0
2,Built-up Area,Ready To Move,Uttarahalli,3 BHK,,1440,2.0,3.0,62.0
9,Plot Area,Ready To Move,Gandhi Bazar,6 Bedroom,,1020,6.0,,370.0
11,Plot Area,Ready To Move,Whitefield,4 Bedroom,Prrry M,2785,5.0,3.0,295.0
13,Built-up Area,Ready To Move,Gottigere,2 BHK,,1100,2.0,2.0,40.0
...,...,...,...,...,...,...,...,...,...
13307,Built-up Area,Ready To Move,Billekahalli,3 BHK,,1805,3.0,3.0,134.0
13308,Built-up Area,Ready To Move,Bannerghatta Road,3 BHK,Baanise,1527,3.0,1.0,142.0
13311,Plot Area,Ready To Move,Ramamurthy Nagar,7 Bedroom,,1500,9.0,2.0,250.0
13315,Built-up Area,Ready To Move,Whitefield,5 Bedroom,ArsiaEx,3453,4.0,0.0,231.0


In [35]:
df_house_data[
    (df_house_data["area_type"] == "Built-up  Area") & 
    (df_house_data["price"] > 100)
]

Unnamed: 0,area_type,availability,location,size,society,total_sqft,bath,balcony,price
34,Built-up Area,Ready To Move,Kasturi Nagar,3 BHK,Kantsce,1925,3.0,,125.0
56,Built-up Area,20-Feb,Devanahalli,4 Bedroom,BrereAt,3010 - 3410,,,192.0
64,Built-up Area,Ready To Move,Bommanahalli,8 Bedroom,,3000,8.0,0.0,140.0
77,Built-up Area,Ready To Move,Cholanayakanahalli,3 BHK,Viony H,2511,3.0,3.0,205.0
79,Built-up Area,Ready To Move,ISRO Layout,6 Bedroom,,4400,6.0,3.0,250.0
...,...,...,...,...,...,...,...,...,...
13260,Built-up Area,Ready To Move,Frazer Town,2 BHK,Saentpa,1420,2.0,0.0,120.0
13262,Built-up Area,Ready To Move,Abshot Layout,2 BHK,Emtat H,1140,1.0,1.0,185.0
13307,Built-up Area,Ready To Move,Billekahalli,3 BHK,,1805,3.0,3.0,134.0
13308,Built-up Area,Ready To Move,Bannerghatta Road,3 BHK,Baanise,1527,3.0,1.0,142.0


## loc y iloc

El iloc se utiliza en los DataFrames para seleccionar los elementos en base a su ubicación. Su sintaxis es:

```Python
df.iloc[<filas(pocision)>, <columnas(pocision)>]
df.loc[<filas(index)>, <columnas(nombre)>]
```   
- `iloc`: Para utilizar esta funcionalidad se debe especificar la pocision de las filas y las columnas que se desean filtrar

- `loc`: para utilizar esta funcionalidad se debe especificar el index exacto para cada fila y el nombre de la columna 

In [65]:
main_path = "C:/Users/usuario1/Desktop/Eafit/grupo_DS_NB_G07/"
file_path = "datasets"
file_io = "athletes.csv"
full_path = os.path.join(main_path, file_path, file_io)
df_athletes = read_csv(full_path, sep = ",")
df_athletes.head()

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,male,11/26/90,1.81,71.0,cycling,0,0,0


In [None]:
df.iloc[<filas(pocision)>, <columnas(pocision)>]

In [39]:
df_athletes.iloc[0:3, 3:5]

Unnamed: 0,sex,dob
0,male,10/17/69
1,female,9/23/86
2,male,5/27/92


In [43]:
df_test = df_athletes.tail()
df_test

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
11533,265605954,Zurian Hechavarria,CUB,female,8/10/95,1.64,58.0,athletics,0,0,0
11534,214461847,Zuzana Hejnova,CZE,female,12/19/86,1.73,63.0,athletics,0,0,0
11535,88361042,di Xiao,CHN,male,5/14/91,1.85,100.0,wrestling,0,0,0
11536,900065925,le Quoc Toan Tran,VIE,male,4/5/89,1.6,56.0,weightlifting,0,0,0
11537,711404576,le Roux Hamman,RSA,male,1/6/92,1.85,70.0,athletics,0,0,0


In [45]:
df_test.iloc[0:1, 3:5]

Unnamed: 0,sex,dob
11533,female,8/10/95


In [53]:
df_test.loc[11533:11533, "sex": "bronze"]

Unnamed: 0,sex,dob,height,weight,sport,gold,silver,bronze
11533,female,8/10/95,1.64,58.0,athletics,0,0,0


In [54]:
df_test[["sex", "bronze"]].to_csv("ensayo_test.csv", index = False)

# Método Apply()

In [56]:
def minusculas(item):
    
    return item.lower()

## Forma 1

In [58]:
df_athletes["nationality"] = df_athletes["nationality"].apply(minusculas)

In [59]:
df_athletes

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,esp,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,kor,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,can,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,mda,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,nzl,male,11/26/90,1.81,71.0,cycling,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
11533,265605954,Zurian Hechavarria,cub,female,8/10/95,1.64,58.0,athletics,0,0,0
11534,214461847,Zuzana Hejnova,cze,female,12/19/86,1.73,63.0,athletics,0,0,0
11535,88361042,di Xiao,chn,male,5/14/91,1.85,100.0,wrestling,0,0,0
11536,900065925,le Quoc Toan Tran,vie,male,4/5/89,1.60,56.0,weightlifting,0,0,0


In [60]:
def convert_m_f(item):
    
    if item == "male":
        return 1
    else:
        return 0

In [69]:
df_athletes["sex"] = df_athletes["sex"].apply(convert_m_f)
df_athletes

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,1,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,0,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,1,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,1,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,1,11/26/90,1.81,71.0,cycling,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
11533,265605954,Zurian Hechavarria,CUB,0,8/10/95,1.64,58.0,athletics,0,0,0
11534,214461847,Zuzana Hejnova,CZE,0,12/19/86,1.73,63.0,athletics,0,0,0
11535,88361042,di Xiao,CHN,1,5/14/91,1.85,100.0,wrestling,0,0,0
11536,900065925,le Quoc Toan Tran,VIE,1,4/5/89,1.60,56.0,weightlifting,0,0,0


In [74]:
def swapcase_word(item):
    return item.swapcase()

In [75]:
df_athletes["name"] = df_athletes["name"].apply(swapcase_word)
df_athletes

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,a jESUS gARCIA,ESP,1,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,a lAM sHIN,KOR,0,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,aARON bROWN,CAN,1,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,aARON cOOK,MDA,1,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,aARON gATE,NZL,1,11/26/90,1.81,71.0,cycling,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
11533,265605954,zURIAN hECHAVARRIA,CUB,0,8/10/95,1.64,58.0,athletics,0,0,0
11534,214461847,zUZANA hEJNOVA,CZE,0,12/19/86,1.73,63.0,athletics,0,0,0
11535,88361042,DI xIAO,CHN,1,5/14/91,1.85,100.0,wrestling,0,0,0
11536,900065925,LE qUOC tOAN tRAN,VIE,1,4/5/89,1.60,56.0,weightlifting,0,0,0


## Funciones Lambda

<br>
<img src = "./images/lambda.png" height = "400" width = "400">
<br>

Las `funciones lambda` resultan útiles en los casos en los que necesitamos usar una función pocas veces dentro de otra. En este caso, puede resultar más sencillo usar una función lambda que la definición de una función, asignándole un nombre.

<br>
<img src = "./images/lambda_1.png" height = "500" width = "500">
<br>

- Tutorial del manejo de funciones lambda: https://realpython.com/python-lambda/

In [78]:
(lambda x: x + 1)(342)

343

In [91]:
(lambda z, y, eafit: (z + y)*eafit)(3, 3, 3)

18

In [81]:
def suma_mul(num1,num2,num3):
    
    return (num1 + num2)*num3

In [82]:
suma_mul(3,3,6)

36

In [83]:
suma_mul

<function __main__.suma_mul(num1, num2, num3)>

In [93]:
(lambda z, y, eafit: (z + y)*eafit)(3, 4, 3)

21

In [94]:
lambda_funcion = lambda z, y, eafit: (z + y)*eafit

In [96]:
lambda_funcion(3, 4, 3)

21

In [97]:
lambda_funcion(3, 3434, 3)

10311

In [105]:
main_path = "C:/Users/usuario1/Desktop/Eafit/grupo_DS_NB_G07/"
file_path = "datasets"
file_io = "athletes.csv"
full_path = os.path.join(main_path, file_path, file_io)
df_athletes = read_csv(full_path, sep = ",")
df_athletes.head()

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,male,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,female,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,male,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,male,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,male,11/26/90,1.81,71.0,cycling,0,0,0


In [106]:
def convert_m_f(item, flag):
    
    if flag == True:
        if item == "male":
            return 1
        else:
            return 0
    else:
        return item

In [108]:
df_athletes["sex"] = df_athletes["sex"].apply(lambda x: convert_m_f(item = x, flag = True))
df_athletes

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,A Jesus Garcia,ESP,1,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,A Lam Shin,KOR,0,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,Aaron Brown,CAN,1,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,Aaron Cook,MDA,1,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,Aaron Gate,NZL,1,11/26/90,1.81,71.0,cycling,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
11533,265605954,Zurian Hechavarria,CUB,0,8/10/95,1.64,58.0,athletics,0,0,0
11534,214461847,Zuzana Hejnova,CZE,0,12/19/86,1.73,63.0,athletics,0,0,0
11535,88361042,di Xiao,CHN,1,5/14/91,1.85,100.0,wrestling,0,0,0
11536,900065925,le Quoc Toan Tran,VIE,1,4/5/89,1.60,56.0,weightlifting,0,0,0


In [None]:
def swapcase_word(item):
    return item.swapcase()

In [109]:
df_athletes["name"] = df_athletes["name"].apply(lambda x: swapcase_word(item = x))
df_athletes

Unnamed: 0,id,name,nationality,sex,dob,height,weight,sport,gold,silver,bronze
0,736041664,a jESUS gARCIA,ESP,1,10/17/69,1.72,64.0,athletics,0,0,0
1,532037425,a lAM sHIN,KOR,0,9/23/86,1.68,56.0,fencing,0,0,0
2,435962603,aARON bROWN,CAN,1,5/27/92,1.98,79.0,athletics,0,0,1
3,521041435,aARON cOOK,MDA,1,1/2/91,1.83,80.0,taekwondo,0,0,0
4,33922579,aARON gATE,NZL,1,11/26/90,1.81,71.0,cycling,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
11533,265605954,zURIAN hECHAVARRIA,CUB,0,8/10/95,1.64,58.0,athletics,0,0,0
11534,214461847,zUZANA hEJNOVA,CZE,0,12/19/86,1.73,63.0,athletics,0,0,0
11535,88361042,DI xIAO,CHN,1,5/14/91,1.85,100.0,wrestling,0,0,0
11536,900065925,LE qUOC tOAN tRAN,VIE,1,4/5/89,1.60,56.0,weightlifting,0,0,0


## leer un archivo Json cualquiera

In [110]:
main_path = "C:/Users/usuario1/Desktop/Eafit/grupo_DS_NB_G07/"
file_path = "datasets"
file_io = "resultados_electorales.json"
full_path = os.path.join(main_path, file_path, file_io)
full_path

'C:/Users/usuario1/Desktop/Eafit/grupo_DS_NB_G07/datasets\\resultados_electorales.json'

In [113]:
import json

In [119]:
with open(full_path, encoding = "utf8") as file:
    data = json.load(file)
df_data = DataFrame(data)

In [121]:
df_data.head()

Unnamed: 0,ncircunscripcion,ndepto,nmpio,zz,pp,npuesto,mesa,candidato,votos,partido
0,INDIGENAS,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,15,VOTOS EN BLANCO,1,
1,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,SOLO POR EL PARTIDO,12,PARTIDO LIBERAL COLOMBIANO
2,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,EDUAR LUIS BENJUMEA MORENO,18,PARTIDO LIBERAL COLOMBIANO
3,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,MELQUI ANDRES MARIN ELIZALDE,3,PARTIDO LIBERAL COLOMBIANO
4,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,HASSAM CANO DE LA CRUZ,8,PARTIDO LIBERAL COLOMBIANO


In [122]:
read_json(full_path)

Unnamed: 0,ncircunscripcion,ndepto,nmpio,zz,pp,npuesto,mesa,candidato,votos,partido
0,INDIGENAS,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,15,VOTOS EN BLANCO,1,
1,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,SOLO POR EL PARTIDO,12,PARTIDO LIBERAL COLOMBIANO
2,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,EDUAR LUIS BENJUMEA MORENO,18,PARTIDO LIBERAL COLOMBIANO
3,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,MELQUI ANDRES MARIN ELIZALDE,3,PARTIDO LIBERAL COLOMBIANO
4,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,HASSAM CANO DE LA CRUZ,8,PARTIDO LIBERAL COLOMBIANO
...,...,...,...,...,...,...,...,...,...,...
995,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,YESIKA LARRAÑAGA,2,PARTIDO ALIANZA VERDE
996,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,SOLO POR EL PARTIDO,1,PARTIDO POLÍTICO MIRA
997,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,SOLO POR EL PARTIDO,3,PARTIDO SOCIAL DE UNIDAD NACIONAL PARTIDO DE LA U
998,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,HAROLD AUGUSTO VALENCIA INFANTE,15,PARTIDO SOCIAL DE UNIDAD NACIONAL PARTIDO DE LA U
