# Introducción práctica a Python y Scikit-learn para clasificación

Python es un lenguaje de programación de alto nivel, interpretado y de propósito general, conocido por su sintaxis clara y sencilla que facilita la lectura y escritura del código. Fue creado por Guido van Rossum y es ampliamente utilizado en diversos campos como desarrollo web, análisis de datos, inteligencia artificial, automatización, y más. Su diseño enfatiza la legibilidad del código y permite a los programadores expresar conceptos en menos líneas que otros lenguajes como Java o C++. Además, cuenta con una gran comunidad y una vasta colección de bibliotecas que extienden su funcionalidad.

## Tipos de datos en Python

En Python, los tipos de datos más comunes son:

Enteros (int): números sin decimales (ej. 5)

In [3]:
x = 5
type(x)

int

Flotantes (float): números con decimales (ej. 3.14)

In [4]:
x = 3.14
type(x)

float

Cadenas (str): texto (ej. "Hola")

In [5]:
x = 'Hola'
type(x)

str

Booleanos (bool): valores True o False

In [6]:
x = True
type(x)

bool

Conjuntos (set): colecciones sin orden ni elementos repetidos (ej. {1, 2, 3})

In [7]:
x = {1,2,3}
type(x)

set

### Tuplas

Las tuplas son una estructura de datos inmutable (no se pueden alterar).

In [8]:
x = (1, 'a', 2, 'b')
type(x)

tuple

### Listas

Las listas son una estructura de datos mutable.

In [None]:
x = [1, 'a', 2, 'b']
type(x)

list

### Diccionarios

Los diccionarios son similares a las listas y tuplas ya que contienen una colección de elementos, pero son colecciones etiquetadas que no tienen un orden. Esto significa que por cada valor que insertas en el diccionario, también debes dar una clave para sacar ese valor. En otros lenguajes la estructura suele llamarse mapa. Y en Python usamos llaves para denotar un diccionario. He aquí un ejemplo en el que podríamos relacionar nombres con direcciones de correo electrónico. Puede ver que indicamos cada elemento del diccionario al crearlo usando un par de valores separados por dos puntos. Luego puede recuperar un valor para una etiqueta dada utilizando el operador de indexación.

In [16]:
x = {'Camilo Romero': 'ceromero@unicauca.edu.co', 'Carlos Cobos': 'ccobos@unicauca.edu.co'}
x['Camilo Romero']  # Recuperar un valor utilizando el operador de indexación

'ceromero@unicauca.edu.co'

Podemos iterar sobre todas las llaves:

In [17]:
for name in x:
    print(x[name])

ceromero@unicauca.edu.co
ccobos@unicauca.edu.co


Y tambien sobre los valores:

In [18]:
for email in x.values():
    print(email)

ceromero@unicauca.edu.co
ccobos@unicauca.edu.co


O sobre cada item del diccionario:

In [21]:
for name, email in x.items():
    print("Nombre:",name,", Correo:",email)

Nombre: Camilo Romero , Correo: ceromero@unicauca.edu.co
Nombre: Carlos Cobos , Correo: ccobos@unicauca.edu.co


Para el ejemplo vamos a importar el dataset churn:

## Numpy

Numpy es el paquete fundamental para la computación numérica con Python. Proporciona potentes formas de crear, almacenar y / o manipular datos, lo que hace que sea capaz de integrarse sin problemas y rápidamente con una amplia variedad de bases de datos. También es la base sobre la que se construye Pandas.

In [37]:
import numpy as np
import math

In [None]:
# Los arrays (arreglos) se muestran como una lista o lista de listas y pueden crearse también a través de listas. 
# Al crear un array, pasamos una lista como argumento en numpy array
a = np.array([1, 2, 3])
print(a)
print(a.ndim) # Mostramos el número de dimensiones

[1 2 3]
1


In [39]:
# Si pasamos una lista de listas en numpy array, creamos un array multidimensional (matriz).
b = np.array([[1,2,3],[4,5,6]])
b

array([[1, 2, 3],
       [4, 5, 6]])

In [40]:
b.shape #  Podemos imprimir la longitud de cada dimensión llamando al atributo shape, que devuelve una tupla

(2, 3)

In [None]:
c = np.array([2.2, 5, 1.1])
c.dtype.name # Consultamos los tipos de datos dentro del arreglo

'float64'

Numpy convierte automáticamente enteros, como 5, a floats, ya que no hay pérdida de prescisión.
Numpy intentará dar el mejor formato de tipo de datos posible para mantener los tipos de datos homogéneos, es decir, todos iguales, en el array

In [44]:
d = np.zeros((2,3)) # Podemos crear matrices llenas con ceros
print(d)

e = np.ones((2,3)) # O llenas con unos
print(e)

f = np.random.rand(2,3) # O con números aleatorios
print(f)

[[0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]]
[[0.25541162 0.80720668 0.84384455]
 [0.37350743 0.11830275 0.19017564]]


In [45]:
# También podemos crear una secuencia de números en una matriz con la función arrange(). 
# El primer argumento es el límite inicial, el segundo argumento es el límite final
# y el tercer argumento es la diferencia entre cada número consecutivo.
# Vamos a crear una matriz con todos los números pares desde el diez hasta el cincuenta
f = np.arange(10, 50, 2)
f

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42,
       44, 46, 48])

Podemos hacer muchas cosas en arrays, como manipulación matemática (suma, resta, cuadrado, exponentes), así como usar matrices booleanas, que son valores binarios. También podemos hacer manipulación de matrices como producto, transposición, inversa, etc.

In [46]:
array1 = np.array([[1, 2, 3], [4, 5, 6]]) # Arreglo enteros
array2 = np.array([[7.1, 8.2, 9.1], [10.4, 11.2, 12.3]]) # Arreglo floats

array3=array1+array2 # Suma de arreglos
print(array3)
print(array3.dtype)

print("Suma:",array3.sum())
print("Maximo:",array3.max())
print("Minimo:",array3.min())
print("Media:",array3.mean())

[[ 8.1 10.2 12.1]
 [14.4 16.2 18.3]]
float64
Suma: 79.3
Maximo: 18.3
Minimo: 8.1
Media: 13.216666666666667


## Lectura y escritura de archivos CSV

In [53]:
import csv

with open('churn.csv') as csvfile:
    churn = list(csv.DictReader(csvfile))

churn[:3]  # Consultamos los tres primeros registros de la lista de diccionario

[{'State; "Account Length"; "Area Code"; "Phone Number"; "Inter Plan"; "VoiceMail Plan"; "No of Vmail Mesgs"; "Total Day Min"; "Total Day calls"; "Total Day Charge"; "Total Evening Min"; "Total Evening Calls"; "Total Evening Charge"; "Total Night Minutes"; "Total Night Calls"; "Total Night Charge"; "Total Int Min"; "Total Int Calls"; "Total Int Charge"; "No of Calls Customer Service"; "Churn"': 'OH   ;            107.0; "A415"     ; "371-7191"    ; "no"        ; "yes"           ;                26.0;           161.6;             123.0;              27.47;               195.5;                 103.0;                  16.62;                 254.4;               103.0;                11.45;            13.7;               3.0;               3.7 ;                            1.0; "FALSE"'},
 {'State; "Account Length"; "Area Code"; "Phone Number"; "Inter Plan"; "VoiceMail Plan"; "No of Vmail Mesgs"; "Total Day Min"; "Total Day calls"; "Total Day Charge"; "Total Evening Min"; "Total Evening Cal

In [54]:
len(churn) # Consultamos el numero de registros de nuestros diccionarios

3333

In [55]:
churn[0].keys() # Consultamos las llaves de los diccionarios

dict_keys(['State; "Account Length"; "Area Code"; "Phone Number"; "Inter Plan"; "VoiceMail Plan"; "No of Vmail Mesgs"; "Total Day Min"; "Total Day calls"; "Total Day Charge"; "Total Evening Min"; "Total Evening Calls"; "Total Evening Charge"; "Total Night Minutes"; "Total Night Calls"; "Total Night Charge"; "Total Int Min"; "Total Int Calls"; "Total Int Charge"; "No of Calls Customer Service"; "Churn"'])

In [49]:
churn = np.genfromtxt("churn.csv", delimiter=";", skip_header=1,
                                   names=("No of Vmail Mesgs", "Total Day Min", "Total Day calls", "Total Day Charge", 
                                          "Total Evening Min", "Total Evening Calls", "Total Evening Charge", 
                                          "Total Night Minutes", "Total Night Calls", "Total Night Charge", 
                                          "Total Int Min", "Total Int Calls", "Total Int Charge", "No of Calls Customer Service"))
churn

array([(nan, 107., nan, nan, nan, nan, 26., 161.6, 123., 27.47, 195.5, 103., 16.62, 254.4),
       (nan, 137., nan, nan, nan, nan,  0., 243.4, 114., 41.38, 121.2, 110., 10.3 , 162.6),
       (nan,  84., nan, nan, nan, nan,  0., 299.4,  71., 50.9 ,  61.9,  88.,  5.26, 196.9),
       ...,
       (nan, 184., nan, nan, nan, nan,  0., 213.8, 105., 36.35, 159.6,  84., 13.57, 139.2),
       (nan,  74., nan, nan, nan, nan, 25., 234.4, 113., 39.85, 265.9,  82., 22.6 , 241.4),
       (nan, 128., nan, nan, nan, nan, 25., 265.1, 110., 45.07, 197.4,  99., 16.78, 244.7)],
      dtype=[('No_of_Vmail_Mesgs', '<f8'), ('Total_Day_Min', '<f8'), ('Total_Day_calls', '<f8'), ('Total_Day_Charge', '<f8'), ('Total_Evening_Min', '<f8'), ('Total_Evening_Calls', '<f8'), ('Total_Evening_Charge', '<f8'), ('Total_Night_Minutes', '<f8'), ('Total_Night_Calls', '<f8'), ('Total_Night_Charge', '<f8'), ('Total_Int_Min', '<f8'), ('Total_Int_Calls', '<f8'), ('Total_Int_Charge', '<f8'), ('No_of_Calls_Customer_Service', '<f8'

## Series y DataFrames

La serie es una de las estructuras de datos principales de pandas. Es un cruce entre una lista y un diccionario. Todos los elementos se almacenan en un orden y hay etiquetas para consultarlos. Una forma fácil de visualizar esto son dos columnas de datos. La primera es el índice especial (index), muy parecido a las claves de un diccionario. Mientras que la segunda son los datos reales. Es importante tener en cuenta que la columna de datos tiene una etiqueta propia y se puede recuperar utilizando el atributo. Esto es diferente que con los diccionarios y es útil cuando se trata de combinar varias columnas de datos.

In [None]:
import pandas as pd

students_scores = {'Alice': 'Physics',
                   'Jack': 'Chemistry',
                   'Molly': 'English'}

s = pd.Series(students_scores, index=['Alice', 'Molly', 'Sam'])
s

Alice    Physics
Molly    English
Sam          NaN
dtype: object

Entonces, ¿qué pasa si su lista de valores en el objeto de índice no están alineados con las claves en su diccionario para la creación de la serie? Bueno, pandas ignorará de su diccionario todas las claves que no estén en su índice, y añadirá valores de tipo None o NaN para cualquier valor de índice que se proporcione y que no esté en la lista de claves de su diccionario.