# Subconjuntos

**Explicación Data Wrangling ->** https://www.notion.so/Data-Wrangling-a336f65b7533411aa28bca300307a963

**Explicación Subconjuntos ->** https://www.notion.so/Crear-subconjuntos-41ed5d5ac1a4481cb16c2a1f2de7c220

**Librerías, Funciones:**
- *Pandas* -> read_csv.
- *Python* -> loc, iloc.

**Índice:**

0. Preparación previa
1. Subconjunto de **columnas**
2. Subconjunto de **filas**
3. Subconjunto de **filas+columnas**
4. Subconjunto **mediante bucle**
5. Subconjunto **condicionales**
6. Subconjunto **condicionales concatenadas**


## *Preparación previa:*

In [38]:
%config IPCompleter.greedy=True  #Para permitir el autocompletado en Jupyter

In [6]:
import pandas as pd

In [39]:
mainpath = "/Users/irene/Documents/GitHub/python-ml-course/datasets"  #Ruta ficheros
filename1 = "customer-churn-model/Customer Churn Model.txt" #Fichero a abrir
fullpath1 = mainpath + "/" + filename1 #Ruta completa

df1 = pd.read_csv(fullpath1)
df1.head(2)

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.


## Extraer un subconjunto de datos:

### 1. Subconjunto de columnas

In [9]:
#Si extraemos sólo 1 columna, genera un vector, si no, un DataFrame:

desired_columns = ["Account Length", "Phone", "Eve Charge", "Night Calls"] #Nombre de las columnas a extraer

subset1 = df1[desired_columns]
subset1.head()

Unnamed: 0,Account Length,Phone,Eve Charge,Night Calls
0,128,382-4657,16.78,91
1,107,371-7191,16.62,103
2,137,358-1921,10.3,104
3,84,375-9999,5.26,89
4,75,330-6626,12.61,121


### 2. Subconjunto de filas

In [11]:
subset2 = df1[10:13] #El 1er elemnto entra el 2do no -> del 10 al 12.
subset2

#subset2 = df1[:650] -> Hasta el 650
#subset2 = df1[650:] -> Desde el 650 en adelante

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
10,IN,65,415,329-6603,no,no,0,129.1,137,21.95,...,83,19.42,208.8,111,9.4,12.7,6,3.43,4,True.
11,RI,74,415,344-9403,no,no,0,187.7,127,31.91,...,148,13.89,196.0,94,8.82,9.1,5,2.46,0,False.
12,IA,168,408,363-1107,no,no,0,128.8,96,21.9,...,71,8.92,141.1,128,6.35,11.2,2,3.02,1,False.


### 3. Subconjunto filas+columnas

Mediante las funciones:
- **loc ->** para indexado basado en etiquetas categóricas
- **iloc ->** para indexado basado en etiquetas posicionales

**[filas, columnas]**

In [18]:
action_columns = ["Day Mins", "Night Mins", "Account Length"] #Columnas a borrar, o para quedarnos con el complementario

subset3 = df1[:10][action_columns] #2 filtrados
subset3.shape #10 filas, 3 columnas

(10, 3)

In [31]:
#Función loc

subset4 = df1.loc[:20, action_columns] 
subset4.shape

(21, 3)

In [32]:
#Función iloc

subset5 = df1.iloc[ : , 3:6 ] #Todas las filas para las columnas de la 3 a la 6
subset5.shape

(3333, 3)

In [34]:
#Función iloc

subset6 = df1.iloc[:10,[2,5,7]] #Filas de la 0 a la 10 / Columnas 2, 5 y 7
subset6.shape

(10, 3)

### 4. Subconjuntos mediante un bucle

Para datasets con muchas columnas.

In [37]:
all_columns_list = df1.columns.values.tolist() #Todas las columnas del df original

sublist1 = [x for x in all_columns_list if x not in action_columns] 
sublist1 #Creamos un subconjunto con todas las columnas que no estén en action_columns

['State',
 'Area Code',
 'Phone',
 "Int'l Plan",
 'VMail Plan',
 'VMail Message',
 'Day Calls',
 'Day Charge',
 'Eve Mins',
 'Eve Calls',
 'Eve Charge',
 'Night Calls',
 'Night Charge',
 'Intl Mins',
 'Intl Calls',
 'Intl Charge',
 'CustServ Calls',
 'Churn?']

In [17]:
subset3 = df1[sublist1]
subset3.head(2)

Unnamed: 0,State,Area Code,Phone,Int'l Plan,VMail Plan,Day Mins,Day Calls,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,415,382-4657,no,yes,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,415,371-7191,no,yes,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.


### 5. Subconjuntos condicionales


In [15]:
# Condicion numérica

subset7 = df1[df1["Day Mins"]>300] #Filas de la columna que cumplan la condición
subset7.shape 

(43, 21)

In [35]:
# Condicion categórica

subset8 = df1[df1["State"]=="NY"] #Las comparaciones de igualdad van con doble igual
subset8.shape 

(83, 21)

### 6. Subconjunto de condicionales concatenadas

2 condiciones booleanas:
- **AND (&)** -> se cumplen **AMBAS** condiciones.
- **OR (|)** -> se cumple **AL MENOS UNA** de las condiciones.

In [17]:
#AND

subset9 = df1[(df1["Day Mins"]>300) & (df1["State"]=="NY")]
subset9.shape 

(2, 21)

In [36]:
#OR

subset10 = df1[(df1["Day Mins"]>300) | (df1["State"]=="NY")]
subset10.shape

(124, 21)

In [19]:
#COMPARAMOS

subset11 = df1[df1["Day Calls"]<df1["Night Calls"]] #Donde las llamadas de noche superen a las de día
subset11.shape

(1626, 21)