# Introducción al Machine Learning

<img alt="Colaboratory logo" src="MLearning.jpg" height = "500" width = "500">

El Machine Learning es una rama de la Inteligencia Artificial que, a través de algoritmos, dota a las "máquinas" la capacidad de identificar patrones en datos (o la capacidad de "aprender") y erealizar predicciones. Este aprendizaje permite a las máquinas realizar tareas específicas como clasificación, forecasting, sistemas de recomendación y entre otros.

Podemos utilizar el ML para:

- Problemas para los cuales las soluciones existentes requieren una gran cantidad de trabajo.
- Problemas complejos para los que no existe una solución con los métodos tradicionales.
- Entornos fluctuantes.
- Obtener información sobre problemas complejos y grandes cantidades de datos.

Python y R son lenguajes de programación mas populares para el análisis de datos, machine leraning, IA, y deep learning

<img src="R.JPG" height = "300" width = "300">

## Todo es Inteligencia Artificial

<img alt="Colaboratory logo" src="IA.jpg" height = "700" width = "700">

## Tipos de algoritmos en ML

Los sistemas de machine learning los clasificaremos de acuerdo a la relación que se establezca entre los datos de entrada y salida, además de la naturaleza continua o discreta de los datos. A continuación, podemos ver algunos de ellos:
 
<img src="ML.png" height = "700" width = "700">

## Ciclo de vida del ML o ML end-to-end

<img src="MLend.jpg" height = "800" width = "800">

# Pandas

<img src = "Pandas_logo.png" height = "200" width = "200">

Pandas es un módulo que fue creado en 2008 por Wes McKinney, es un proyecto Open Source con una licencia muy permisiva, tiene una comunidad bastante amplia con más de 100 desarrolladores de código que día a día lo hacen mejor. Pandas es una de las librerías más usadas hoy por hoy en lo que respecta a Data science. Esta es una libreria enfocada en el análisis de datos, la cual contiene una serie de estructuras de datos flexibles que permiten tener un manejo más cómodo y eficiente de los datos. Pandas está construida sobre la libreria NumPy, por lo que podemos usar los métodos y funcionalidades de los arreglos de numpy. Además, los objetos de pandas van a ser las estructuras de datos con lo cuales vamos a alimentar los algoritmos de Machine Learning.

Para consultar la documentación oficial de Pandas se puede acceder mediante el siguiente link:
- https://pandas.pydata.org/docs/getting_started/index.html   

<img src = "pandas.jpg" height = "700" width = "700">

## Series

Las series son una de las estructuras centrales de Pandas. Puede pensarlas como un cruce entre una lista y un diccionario. Los items son guardados en orden y hay etiquetas con las cuales se puede recuperar los items.

Una forma de visualizarlo es como 2 columnas de datos, el primero es un índice especial, tal y como el `key` de un diccionario y el segundo son los datos.

Notemos que la columna de los datos tiene una etiqueta por sí misma, y puede consultarse usando el atributo `.name` esto es diferente que con los diccionarios, y es bastante útil a la hora de mezclar diferentes tablas de datos.

<img src = "serie.jpg" height = "300" width = "300">

Así podemos crear una serie:

```Python
import pandas as pd
pd.Series(data = None, index = None, dtype = None, name = None)
```

### Crear una Serie

#### A partir de una lista

In [1]:
import pandas as pd
import numpy as np

In [2]:
ciudades = ["Medellin", "Cali", "Barranquilla"]
ciudades_serie = pd.Series(data = ciudades, name = "Ciudades")
ciudades_serie

0        Medellin
1            Cali
2    Barranquilla
Name: Ciudades, dtype: object

In [3]:
departamentos = ["Antioquia", "Valle", "Atlantico"]
departamentos_serie = pd.Series(data = departamentos, name = "Departamentos")
departamentos_serie

0    Antioquia
1        Valle
2    Atlantico
Name: Departamentos, dtype: object

#### A partir de un diccionario

In [4]:
ciudades = {
    0: "Medellin",
    1: "Cali",
    2: "Barranquilla"
}

ciudades_serie = pd.Series(data = ciudades, name = "Ciudades")
ciudades_serie

0        Medellin
1            Cali
2    Barranquilla
Name: Ciudades, dtype: object

In [5]:
ciudades = {
    "Antioquia": "Medellin",
    "Valle": "Cali",
    "Atlantico": "Barranquilla"
}

ciudades_serie = pd.Series(data = ciudades, name = "Ciudades")
ciudades_serie

Antioquia        Medellin
Valle                Cali
Atlantico    Barranquilla
Name: Ciudades, dtype: object

#### A partir de un array

In [7]:
ciudades = ["Medellin", "Cali", "Barranquilla"]
array_ciudades = np.array(ciudades)
array_serie = pd.Series(array_ciudades, name = "Ciudades")
array_serie

0        Medellin
1            Cali
2    Barranquilla
Name: Ciudades, dtype: object

In [12]:
numeros = [1, 2, 3, 4, 5]
array_numeros = np.array(numeros)
array_serie = pd.Series(array_numeros, name = "Numeros", dtype = "int64")
array_serie

0    1
1    2
2    3
3    4
4    5
Name: Numeros, dtype: int64

### Acceder a datos de una serie

Para acceder a los datos de una Serie se debe realizar mediante el indice:

```Python
Serie[<Indice>]
```

In [13]:
ciudades = ["Medellin", "Cali", "Barranquilla"]
array_ciudades = np.array(ciudades)
array_serie = pd.Series(array_ciudades, name = "Ciudades")
array_serie

0        Medellin
1            Cali
2    Barranquilla
Name: Ciudades, dtype: object

In [16]:
print(f"Elemento 1: {array_serie[0]}")
print(f"Elemento 2: {array_serie[1]}")
print(f"Elemento 3: {array_serie[2]}")

Elemento 1: Medellin
Elemento 2: Cali
Elemento 3: Barranquilla


In [17]:
ciudades = {
    "Antioquia": "Medellin",
    "Valle": "Cali",
    "Atlantico": "Barranquilla"
}

ciudades_serie = pd.Series(data = ciudades, name = "Ciudades")
ciudades_serie

Antioquia        Medellin
Valle                Cali
Atlantico    Barranquilla
Name: Ciudades, dtype: object

In [18]:
ciudades_serie["Antioquia"]

'Medellin'

### Operaciones de una Serie

Se pueden realizar operaciones y calculos a partir de una Serie, recordemos que Pandas está basado en Numpy, es decir que se pueden utilizar multiples métodos para hacer operaciones como por ejemplo operaciones estadísticas.

In [19]:
numeros = [1, 2, 3, 4, 5]
array_numeros = np.array(numeros)
array_serie = pd.Series(array_numeros, name = "Numeros", dtype = "int64")
array_serie

0    1
1    2
2    3
3    4
4    5
Name: Numeros, dtype: int64

In [20]:
array_serie.mean()

3.0

In [21]:
array_serie.median()

3.0

In [23]:
print(f"Hallar la media:     {array_serie.mean()}")
print(f"Hallar la mediana:   {array_serie.median()}")
print(f"Hallar valor mínimo: {array_serie.min()}")
print(f"Hallar valor máximo: {array_serie.max()}")

Hallar la media:     3.0
Hallar la mediana:   3.0
Hallar valor mínimo: 1
Hallar valor máximo: 5


Se pueden realizar operaciones matematicas simples las cuales se aplican a todos los elementos dentro de la serie, veamos un ejemplo:

In [24]:
array_serie

0    1
1    2
2    3
3    4
4    5
Name: Numeros, dtype: int64

In [25]:
array_serie/5

0    0.2
1    0.4
2    0.6
3    0.8
4    1.0
Name: Numeros, dtype: float64

In [26]:
array_serie*5

0     5
1    10
2    15
3    20
4    25
Name: Numeros, dtype: int64

Tambien se puede operar dos o mas Series como vemos a continuación:

In [29]:
print(f"Sumar un elemento a una serie: \n{array_serie+10}")
print(f"Restar un elemento a una serie: \n{array_serie-10}")
print(f"Multiplicar un elemento a una serie: \n{array_serie*3}")
print(f"Dividir un elemento a una serie: \n{array_serie/3}")

Sumar un elemento a una serie: 
0    11
1    12
2    13
3    14
4    15
Name: Numeros, dtype: int64
Restar un elemento a una serie: 
0   -9
1   -8
2   -7
3   -6
4   -5
Name: Numeros, dtype: int64
Multiplicar un elemento a una serie: 
0     3
1     6
2     9
3    12
4    15
Name: Numeros, dtype: int64
Dividir un elemento a una serie: 
0    0.333333
1    0.666667
2    1.000000
3    1.333333
4    1.666667
Name: Numeros, dtype: float64


### Operaciones de una o mas Series

In [30]:
serie_1 = array_serie*1000
serie_2 = array_serie/2

In [31]:
serie_1

0    1000
1    2000
2    3000
3    4000
4    5000
Name: Numeros, dtype: int64

In [32]:
serie_2

0    0.5
1    1.0
2    1.5
3    2.0
4    2.5
Name: Numeros, dtype: float64

In [33]:
suma_series = serie_1 + serie_2
suma_series

0    1000.5
1    2001.0
2    3001.5
3    4002.0
4    5002.5
Name: Numeros, dtype: float64

**Nota:**

Tener cuidado con los tamaños de la Series a la hora de realizar operaciones entre ellas

In [37]:
numeros = [0, 2, 3, 4, 5, 7, 29, 139, 22]
array_numeros = np.array(numeros)
array_serie_2 = pd.Series(array_numeros, name = "Numeros", dtype = "int64")
array_serie_2

0      0
1      2
2      3
3      4
4      5
5      7
6     29
7    139
8     22
Name: Numeros, dtype: int64

In [39]:
suma_series/array_serie_2

0       inf
1    1000.5
2    1000.5
3    1000.5
4    1000.5
5       NaN
6       NaN
7       NaN
8       NaN
Name: Numeros, dtype: float64

In [48]:
type(suma_series)

pandas.core.series.Series

In [46]:
len(suma_series)

5

In [51]:
suma_series.values

array([1000.5, 2001. , 3001.5, 4002. , 5002.5])

In [52]:
suma_series.values.tolist()

[1000.5, 2001.0, 3001.5, 4002.0, 5002.5]

### Ejercicio

Hacer un programa que pregunte a un usuario por las ventas de un rango de años, y muestre por pantalla una serie con los datos de las ventas donde el indice de la serie debe ser el año que corresponde a la venta, luego, a esa misma serie apliquele un descuento del 10% a cada una de las ventas por año.

- Para pedir un dato de entrada por pantalla utilice el método input(), recuerde que este método devuelve siempre un string de datos

In [58]:
inicio = int(input("Ingrese el año inicial: "))
fin = int(input("Ingrese el año final:      "))
ventas = {}

for i in range(inicio, fin + 1):
    ventas[i] = float(input("Ingrese las ventas del año " + str(i) + ": "))

ventas_serie = pd.Series(ventas)

Ingrese el año inicial: 2018
Ingrese el año final: 2021
Ingrese las ventas del año 2018: 100000
Ingrese las ventas del año 2019: 200000
Ingrese las ventas del año 2020: 300000
Ingrese las ventas del año 2021: 400000


In [61]:
print(f"Ventas sin descuento\n{ventas_serie}")
print(f"\nVentas con descuento\n{ventas_serie*0.9}")

Ventas sin descuento
2018    100000.0
2019    200000.0
2020    300000.0
2021    400000.0
dtype: float64

Ventas con descuento
2018     90000.0
2019    180000.0
2020    270000.0
2021    360000.0
dtype: float64


## DataFrames

El DataFrame es una estructura de datos que podría bien ser considerada el corazón de el módulo de Pandas. Es el objeto primario con el cual un analista de datos en python puede encontrarse trabajando.

Uno puede pensar en un DataFrame como aquello donde tenemos un índice y múltiples columnas, donde cada columna tendrá una etiqueta y su respectivo índice. Existen multiples formas de hacer un DataFrame, podemos usar un grupo de series, donde cada representaría una fila de datos o también podríamos usar diccionarios de datos.

**Etructura de un DataFrame:**


<img src = "dataframe.jpg" height = "700" width = "700">

### Crear un DataFrame

Para crear un DataFrame se puede utilizar el siguiente método de Pandas, donde se puede crear a partir de un diccionario de datos de una o múltiples series


```Python
import pandas as pd
pd.DataFrame(data = None, index = None, columns = None, dtype = None)
```

#### Apartir de una serie

In [73]:
data_1 = pd.Series({"Nombre": "Juan", 
                    "Objeto_comprado": "Arepas", 
                    "Precio_pesos": 2000})

In [74]:
df_tienda = pd.DataFrame(data = data_1).T
df_tienda

Unnamed: 0,Nombre,Objeto_comprado,Precio_pesos
0,Juan,Arepas,2000


#### Apartir de múltiples Series

In [None]:
data_1 = pd.Series({"Nombre": "Juan", 
                    "Objeto_comprado": "Arepas", 
                    "Precio_pesos": 2000})

data_2 = pd.Series({"Nombre": "Jimena", 
                    "Objeto_comprado": "Leche", 
                    "Precio_pesos": 2000})

data_3 = pd.Series({"Nombre": "Carlos", 
                    "Objeto_comprado": "Mantequilla", 
                    "Precio_pesos": 2500})

In [67]:
df_tienda = pd.DataFrame(data = [data_1, data_2, data_3])
df_tienda

Unnamed: 0,Nombre,Objeto_comprado,Precio_pesos
0,Juan,Arepas,2000
1,Jimena,Leche,2000
2,Carlos,Mantequilla,2500


#### Apartir de un diccionario de datos

In [75]:
dict_datos = {
    
    "Nombre": ["Juan", "Jimena", "Carlos"], 
    "Objeto_comprado": ["Arepas", "Leche", "Mantequilla"], 
    "Precio_pesos": [2000, 2000, 2500]
}

In [69]:
df_tienda = pd.DataFrame(dict_datos)
df_tienda

Unnamed: 0,Nombre,Objeto_comprado,Precio_pesos
0,Juan,Arepas,2000
1,Jimena,Leche,2000
2,Carlos,Mantequilla,2500


**Nota:**
Tener cuidado con lo siguiente:

In [71]:
serie_datos = pd.Series(data = {"Nombre": ["Juan", "Jimena", "Carlos"],
                                "Objeto_comprado": ["Arepas", "Leche", "Mantequilla"], 
                                "Precio_pesos": [2000, 2000, 2500]})

df_tienda = pd.DataFrame(serie_datos)
df_tienda

Unnamed: 0,0
Nombre,"[Juan, Jimena, Carlos]"
Objeto_comprado,"[Arepas, Leche, Mantequilla]"
Precio_pesos,"[2000, 2000, 2500]"


### Acceder a las columnas de un DataFrame

In [76]:
dict_datos = {
    
    "Nombre": ["Juan", "Jimena", "Carlos"], 
    "Objeto_comprado": ["Arepas", "Leche", "Mantequilla"], 
    "Precio_pesos": [2000, 2000, 2500]
}

df_tienda = pd.DataFrame(dict_datos)
df_tienda

Unnamed: 0,Nombre,Objeto_comprado,Precio_pesos
0,Juan,Arepas,2000
1,Jimena,Leche,2000
2,Carlos,Mantequilla,2500


In [77]:
df_tienda["Objeto_comprado"]

0         Arepas
1          Leche
2    Mantequilla
Name: Objeto_comprado, dtype: object

In [78]:
df_tienda["Precio_pesos"]

0    2000
1    2000
2    2500
Name: Precio_pesos, dtype: int64

### Acceder a filas de un DataFrame

In [79]:
df_tienda[0:1]

Unnamed: 0,Nombre,Objeto_comprado,Precio_pesos
0,Juan,Arepas,2000


In [82]:
df_tienda[0:3]

Unnamed: 0,Nombre,Objeto_comprado,Precio_pesos
0,Juan,Arepas,2000
1,Jimena,Leche,2000
2,Carlos,Mantequilla,2500


### Operaciones con Dataframes

Al igual que las Series, a los DataFrames tambien se le pueden realizar operaciones de Numpy y operaciones matemáticas

In [83]:
df_tienda["Precio_pesos"].max()

2500

In [84]:
df_tienda["Precio_pesos"].min()

2000

In [86]:
df_tienda["Precio_pesos"].mean()

2166.6666666666665

### Crear columna nueva

In [87]:
df_tienda["Precio_descuento"] = df_tienda["Precio_pesos"]*0.9

In [88]:
df_tienda

Unnamed: 0,Nombre,Objeto_comprado,Precio_pesos,Precio_descuento
0,Juan,Arepas,2000,1800.0
1,Jimena,Leche,2000,1800.0
2,Carlos,Mantequilla,2500,2250.0


### Modificar una columna ya creada

In [90]:
df_tienda["Precio_pesos"] = df_tienda["Precio_pesos"]*0.5
df_tienda

Unnamed: 0,Nombre,Objeto_comprado,Precio_pesos,Precio_descuento
0,Juan,Arepas,1000.0,1800.0
1,Jimena,Leche,1000.0,1800.0
2,Carlos,Mantequilla,1250.0,2250.0


### Operaciones entre columnas

In [89]:
df_tienda["Precio_pesos"] - df_tienda["Precio_descuento"]

0    200.0
1    200.0
2    250.0
dtype: float64

# Lectura de Datos con Pandas

Pandas permite leer múltiples tipos de archivos como xls, xlsx, csv, txt, json y entre otros. el archivo más común y fácil de leer es el tipo csv o txt.

Para leer datos con Pandas se utiliza el siguiente método:

```Python
import pandas as pd

pd.read_csv()
pd.read_excel()
pd.read_json()
      .
      .
      .
```

Existen múltiples páginas web que permiten descargar datos abiertos que pueden ser utilizados para hacer análisis de datos, algunas de ellas son:

- Datos Abiertos del **Gobierno**: https://www.datos.gov.co/browse?sortBy=newest
- Datos Abiertos de **MinTIC**: https://colombiatic.mintic.gov.co/679/w3-propertyvalue-36342.html
- Datos Abiertos de **Kaggle**: https://www.kaggle.com/datasets

Para aprender acerca de Python:
- https://realpython.com/
- https://www.datacamp.com/
- https://www.dataquest.io/
- https://www.udacity.com/

## Leer archivo tipo json

JSON o JavaScript Object Notation es un formato de intercambio de Datos. JSON surgió de la necesidad de un protocolo de comunicación de servidor a navegador en tiempo real y es uno de los formatos más utilizados para tal fin.

In [95]:
## Desde URL
df_json = pd.read_json("https://www.datos.gov.co/resource/vkjr-c6fe.json")
df_json.head()

Unnamed: 0,ncircunscripcion,ndepto,nmpio,zz,pp,npuesto,mesa,candidato,votos,partido
0,INDIGENAS,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,15,VOTOS EN BLANCO,1,
1,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,SOLO POR EL PARTIDO,12,PARTIDO LIBERAL COLOMBIANO
2,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,EDUAR LUIS BENJUMEA MORENO,18,PARTIDO LIBERAL COLOMBIANO
3,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,MELQUI ANDRES MARIN ELIZALDE,3,PARTIDO LIBERAL COLOMBIANO
4,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,HASSAM CANO DE LA CRUZ,8,PARTIDO LIBERAL COLOMBIANO


In [96]:
## Desde un path local
df_json = pd.read_json(r"./datasets/resultados_electorales.json")
df_json.head()

Unnamed: 0,ncircunscripcion,ndepto,nmpio,zz,pp,npuesto,mesa,candidato,votos,partido
0,INDIGENAS,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,15,VOTOS EN BLANCO,1,
1,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,SOLO POR EL PARTIDO,12,PARTIDO LIBERAL COLOMBIANO
2,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,EDUAR LUIS BENJUMEA MORENO,18,PARTIDO LIBERAL COLOMBIANO
3,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,MELQUI ANDRES MARIN ELIZALDE,3,PARTIDO LIBERAL COLOMBIANO
4,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,HASSAM CANO DE LA CRUZ,8,PARTIDO LIBERAL COLOMBIANO


## Leer archivo de Excel

Los archivos de Excel son de los más comunes y etsos pueden leerse de la siguiente forma:

In [98]:
df_excel = pd.read_excel(r"./datasets/Data DS Cotton Plus.xlsx", sheet_name = "BD")
df_excel.head()

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800,2,0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900,1,0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800,2,0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900,1,0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800,2,0,0,11101,...,,,0,0,0,0,0,0,0,0


In [99]:
df_excel = pd.read_excel(r"./datasets/Tasa_de_Cambio_Representativa_del_Mercado-_TRM.xlsx", sheet_name = "Marzo")
df_excel.head()

Unnamed: 0,VALOR,UNIDAD,VIGENCIADESDE,VIGENCIAHASTA
0,3512.17,COP,2020-03-03,2020-03-03
1,3455.56,COP,2020-03-04,2020-03-04
2,3458.45,COP,2020-03-05,2020-03-05
3,3522.41,COP,2020-03-06,2020-03-06
4,3584.58,COP,2020-03-07,2020-03-09


## Leer archivo CSV

In [102]:
df_csv = pd.read_csv(r"./datasets/Data DS Cotton Plus_new.csv", sep = ";")

# delimitador = | 
# delimitador = \t
# delimitador = \n
# delimitador = ;
# delimitador = -
# delimitador = _

df_csv.head()

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800.0,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900.0,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800.0,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800.0,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0


## Leer archivo txt

In [108]:
df_txt = pd.read_csv(r"./datasets/Data DS Cotton Plus_new_2.txt", sep = ",")
df_txt.tail()

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
9971,9972,Nombre Cliente 9972,Aficionados,Si,No,191260.0,4,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
9972,9973,Nombre Cliente 9973,Aficionados,Si,No,371600.0,5,0.0,0,10100,...,,,0,0,0,0,0,0,0,0
9973,9974,Nombre Cliente 9974,Aficionados,Si,No,254960.0,3,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
9974,9975,Nombre Cliente 9975,Esporádicos,Si,No,159920.0,1,0.0,0,10001,...,,,0,0,0,0,0,0,0,0
9975,9976,Nombre Cliente 9976,Esporádicos,No,No,0.0,0,0.0,0,11100,...,,,0,0,0,0,0,0,0,0


## Formas de leer un directorio

Existen múltiples maneras de leer un directorio que se ecnuentra local en el PC, a continuación veremos las 3 formas mas scencillas y simples para apuntar a un directorio específico

### Forma 1

Como vimos anteriormente se quema la dirección del path y antes de las comillas iniciales se pone la letra `"r"`

In [115]:
path_folder = r"C:\Users\DavidPiedrahitaFlore\Desktop\Curso_EAFIT\grupo5\Notebooks\datasets\Data DS Cotton Plus_new.csv"
df_csv = pd.read_csv(path_folder, sep = ";")
df_csv.head()

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800.0,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900.0,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800.0,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800.0,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0


### Forma 2

En lugar de poner la r antes de las comillas se puede duplicar el `"\"` de la siguiente forma:

In [116]:
path_folder = "C:\\Users\\DavidPiedrahitaFlore\\Desktop\\Curso_EAFIT\\grupo5\\Notebooks\\datasets\\Data DS Cotton Plus_new.csv"
df_csv = pd.read_csv(path_folder, sep = ";")
df_csv.head()

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800.0,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900.0,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800.0,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800.0,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0


### Forma 3

Se puede cambiar el `"/"` por un `"\"`, así:

In [117]:
path_folder = "C:/Users/DavidPiedrahitaFlore/Desktop/Curso_EAFIT/grupo5/Notebooks/datasets/Data DS Cotton Plus_new.csv"
df_csv = pd.read_csv(path_folder, sep = ";")
df_csv.head()

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800.0,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900.0,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800.0,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800.0,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0


# Algunos métodos y atributos básicos con DataFrames

Como vimos anteriormente, se pueden realizar operaciones con DataFrames, acontinuación veremos otrso métodos asociados a los DataFrames que son bastante útiles, como resetear indices, eliminar columnas y entre otros

## Resetear indices

Este método es muy útil ya que permite resetear los indices de un DataFrame utilizando el método `reset_index()`, puede consultar la documentación en el siguiente link:

- https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.DataFrame.reset_index.html

In [118]:
df_txt = pd.read_csv(r"./datasets/Data DS Cotton Plus_new_2.txt", sep = ",")

In [124]:
df_txt.sample(5)

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
9143,9144,Nombre Cliente 9144,Aficionados,Si,No,276861.0,3,0.0,0,11100,...,,,0,0,0,0,0,0,338148,0
6994,6995,Nombre Cliente 6995,Aficionados,Si,No,2407430.0,22,0.0,0,11101,...,,,0,0,0,0,0,0,0,0
9029,9030,Nombre Cliente 9030,Esporádicos,Si,No,59900.0,1,0.0,0,11101,...,,,0,0,0,0,0,0,0,0
9343,9344,Nombre Cliente 9344,Aficionados,Si,No,547700.0,4,0.0,0,11001,...,,,913480,0,0,0,0,0,0,0
9347,9348,Nombre Cliente 9348,Aficionados,No,No,0.0,0,0.0,0,11101,...,,,0,0,0,0,0,0,0,0


In [126]:
df_new = df_txt.sample(5)
df_new = df_new.reset_index(drop = True)
df_new

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,9066,Nombre Cliente 9066,Aficionados,Si,Si,915290.0,10,213600.0,4,10100,...,,,0,0,0,0,0,0,0,0
1,3912,Nombre Cliente 3912,Esporádicos,Si,No,124900.0,1,0.0,0,1000,...,,,0,0,0,0,0,0,0,0
2,7115,Nombre Cliente 7115,Curiosos,No,No,0.0,0,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
3,5948,Nombre Cliente 5948,Aficionados,Si,No,99900.0,1,0.0,0,11100,...,,,0,0,0,0,0,0,0,0
4,7975,Nombre Cliente 7975,Esporádicos,Si,No,159900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,0


## Eliminar filas o columnas

Para ello utilizaremos el método `drop()` el cual permite eliminar una fila o una columna, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html

### Eliminar columna

In [131]:
df_new = df_new.drop(["Cedula"], axis = 1)
df_new

Unnamed: 0,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,Es Contactable,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,Nombre Cliente 9066,Aficionados,Si,Si,915290.0,10,213600.0,4,10100,Si,...,,,0,0,0,0,0,0,0,0
1,Nombre Cliente 3912,Esporádicos,Si,No,124900.0,1,0.0,0,1000,Si,...,,,0,0,0,0,0,0,0,0
2,Nombre Cliente 7115,Curiosos,No,No,0.0,0,0.0,0,11001,Si,...,,,0,0,0,0,0,0,0,0
3,Nombre Cliente 5948,Aficionados,Si,No,99900.0,1,0.0,0,11100,Si,...,,,0,0,0,0,0,0,0,0
4,Nombre Cliente 7975,Esporádicos,Si,No,159900.0,1,0.0,0,11001,Si,...,,,0,0,0,0,0,0,0,0


Algunos métodos de Pandas tienen un parametro llamado `inplace` el cual permite aplicar el método sin necesidad de hacer una asignación

In [133]:
df_new.drop(["Segmento"], axis = 1, inplace = True)
df_new

Unnamed: 0,Nombre Completo,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,Es Contactable,Ciudad de Residencia,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,Nombre Cliente 9066,Si,Si,915290.0,10,213600.0,4,10100,Si,VILLAVICENCIO,...,,,0,0,0,0,0,0,0,0
1,Nombre Cliente 3912,Si,No,124900.0,1,0.0,0,1000,Si,MEDELLIN,...,,,0,0,0,0,0,0,0,0
2,Nombre Cliente 7115,No,No,0.0,0,0.0,0,11001,Si,NEIVA,...,,,0,0,0,0,0,0,0,0
3,Nombre Cliente 5948,Si,No,99900.0,1,0.0,0,11100,Si,MEDELLIN,...,,,0,0,0,0,0,0,0,0
4,Nombre Cliente 7975,Si,No,159900.0,1,0.0,0,11001,Si,MANIZALES,...,,,0,0,0,0,0,0,0,0


## Ordenar valores de una columna

Con el método `sort_values()` se pueden ordenar de forma ascendente o descendente los valores de una columna, por defecto ordenará los valores de forma ascendente, puede consultar la documentación en el siguientev link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html

In [134]:
df_new.sort_values(by = ["Monto Comprado 2019?"], ascending = True)

Unnamed: 0,Nombre Completo,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,Es Contactable,Ciudad de Residencia,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
2,Nombre Cliente 7115,No,No,0.0,0,0.0,0,11001,Si,NEIVA,...,,,0,0,0,0,0,0,0,0
3,Nombre Cliente 5948,Si,No,99900.0,1,0.0,0,11100,Si,MEDELLIN,...,,,0,0,0,0,0,0,0,0
1,Nombre Cliente 3912,Si,No,124900.0,1,0.0,0,1000,Si,MEDELLIN,...,,,0,0,0,0,0,0,0,0
4,Nombre Cliente 7975,Si,No,159900.0,1,0.0,0,11001,Si,MANIZALES,...,,,0,0,0,0,0,0,0,0
0,Nombre Cliente 9066,Si,Si,915290.0,10,213600.0,4,10100,Si,VILLAVICENCIO,...,,,0,0,0,0,0,0,0,0


In [135]:
df_new.sort_values(by = ["Monto Comprado 2019?"], ascending = False)

Unnamed: 0,Nombre Completo,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,Es Contactable,Ciudad de Residencia,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,Nombre Cliente 9066,Si,Si,915290.0,10,213600.0,4,10100,Si,VILLAVICENCIO,...,,,0,0,0,0,0,0,0,0
4,Nombre Cliente 7975,Si,No,159900.0,1,0.0,0,11001,Si,MANIZALES,...,,,0,0,0,0,0,0,0,0
1,Nombre Cliente 3912,Si,No,124900.0,1,0.0,0,1000,Si,MEDELLIN,...,,,0,0,0,0,0,0,0,0
3,Nombre Cliente 5948,Si,No,99900.0,1,0.0,0,11100,Si,MEDELLIN,...,,,0,0,0,0,0,0,0,0
2,Nombre Cliente 7115,No,No,0.0,0,0.0,0,11001,Si,NEIVA,...,,,0,0,0,0,0,0,0,0


## Type, dtypes, shape, info

- **type**: Sirve para saber el tipo de dato del objeto
- **dtypes**: devuelve el tipo de dato de cada columna del DataFrame
- **shape**: nos dice la forma del DataFrame, es decir, la cantidad de filas y de columnas
- **info**: Devuelve información básica del DataFrame, como el tipo de dato de cada columna, las de columnas del dataset, memoria que ocupa el dataset y entre otros 

In [136]:
type(df_new)

pandas.core.frame.DataFrame

In [137]:
df_new.dtypes

Nombre Completo                                                      object
Compro 2019?                                                         object
Compro 2020?                                                         object
Monto Comprado 2019?                                                float64
Nro Transacciones 2019                                                int64
Monto Comprado 2020                                                 float64
Nro Transacciones 2020                                                int64
Tipo de Contacto                                                      int64
Es Contactable                                                       object
Ciudad de Residencia                                                 object
Mail                                                                float64
Direccion                                                           float64
Genero                                                               object
Estado Civil

In [139]:
print(f"Filas: {df_new.shape[0]}")
print(f"Columnas: {df_new.shape[1]}")

Filas: 5
Columnas: 38


In [141]:
df_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 38 columns):
 #   Column                                                            Non-Null Count  Dtype  
---  ------                                                            --------------  -----  
 0   Nombre Completo                                                   5 non-null      object 
 1   Compro 2019?                                                      5 non-null      object 
 2   Compro 2020?                                                      5 non-null      object 
 3   Monto Comprado 2019?                                              5 non-null      float64
 4   Nro Transacciones 2019                                            5 non-null      int64  
 5   Monto Comprado 2020                                               5 non-null      float64
 6   Nro Transacciones 2020                                            5 non-null      int64  
 7   Tipo de Contacto                       

## Resumen estadístico del Dataset

Pandas ofrece una forma rápida de calcular alguna medidas de tendencia central, dipersión y entre otras con el método `describe()`, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html

### Para variables numéricas

In [145]:
df_txt = pd.read_csv(r"./datasets/Data DS Cotton Plus_new_2.txt", sep = ",")
df_txt.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Cedula,9976.0,4988.5,2879.967,1.0,2494.75,4988.5,7482.25,9976.0
Monto Comprado 2019?,9976.0,243867.0,456434.6,0.0,0.0,113485.0,288625.0,9231860.0
Nro Transacciones 2019,9976.0,2.462711,4.698831,0.0,0.0,1.0,3.0,92.0
Monto Comprado 2020,9976.0,25067.01,132247.7,0.0,0.0,0.0,0.0,6448400.0
Nro Transacciones 2020,9976.0,0.2635325,1.287152,0.0,0.0,0.0,0.0,60.0
Tipo de Contacto,9976.0,9268.515,3745.491,1.0,10101.0,11100.0,11101.0,11101.0
Mail,0.0,,,,,,,
Direccion,0.0,,,,,,,
Fecha Nacimiento,9976.0,19554870.0,1698869.0,0.0,19660930.0,19790608.5,19850921.25,20001020.0
Dia Nacimiento,9976.0,15.10876,9.083942,1.0,7.0,15.0,23.0,31.0


### Para variables categóricas

In [146]:
df_txt.describe(include = "O").T

Unnamed: 0,count,unique,top,freq
Nombre Completo,9976,9976,Nombre Cliente 7133,1
Segmento,9976,5,Aficionados,6845
Compro 2019?,9976,2,Si,6122
Compro 2020?,9976,2,No,9003
Es Contactable,9976,1,Si,9976
Ciudad de Residencia,9976,251,MEDELLIN,2075
Genero,9976,2,Mujer,5980
Estado Civil,9976,6,No hay informacion,9413
Mes Nacimiento,9976,12,Enero,1132
Direccion Valido?,9976,2,Si,8310


## Conteo de clases de una variable categórica

Se puede utilizar el método `value_counts()` para contar la cantidad de registros asociadas a cada una de las clases de una variable categórica, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.value_counts.html

In [147]:
df_txt["Genero"].value_counts()

Mujer     5980
Hombre    3996
Name: Genero, dtype: int64

In [150]:
df_txt.value_counts(subset = ["Estado Civil"])

Estado Civil      
No hay informacion    9413
Soltero                315
Casado                 211
Union Libre             23
Divorciado              11
Viudo                    3
dtype: int64

## Renombrar columnas

A veces resulta siendo útil renombrar las columnas de un dataset, para ello se utiliza el método `rename()`, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html

In [151]:
df_txt.head()

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800.0,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900.0,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800.0,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800.0,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0


In [152]:
df_txt.rename(columns = {
    "Compro 2019?": "Compro_2019",
    "Compro 2020?": "Compro_2020"
}, inplace = True)

df_txt.head()

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro_2019,Compro_2020,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800.0,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900.0,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800.0,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800.0,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0


## Transponer DataFrame

Cuando se transpone un DataFrame las columnas toman el lugar del index, así:

In [154]:
df_excel = pd.read_excel(r"./datasets/Tasa_de_Cambio_Representativa_del_Mercado-_TRM.xlsx", sheet_name = "Marzo")
df_excel.head()

Unnamed: 0,VALOR,UNIDAD,VIGENCIADESDE,VIGENCIAHASTA
0,3512.17,COP,2020-03-03,2020-03-03
1,3455.56,COP,2020-03-04,2020-03-04
2,3458.45,COP,2020-03-05,2020-03-05
3,3522.41,COP,2020-03-06,2020-03-06
4,3584.58,COP,2020-03-07,2020-03-09


In [156]:
df_excel.transpose()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
VALOR,3512.17,3455.56,3458.45,3522.41,3584.58,3803.60,3780.39,3835.15,4034.66,3941.92,4099.93,4044.55,4128.38,4153.91,4079.96,4104.90,4086.34,3995.83,4042.80,4064.81
UNIDAD,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP
VIGENCIADESDE,2020-03-03 00:00:00,2020-03-04 00:00:00,2020-03-05 00:00:00,2020-03-06 00:00:00,2020-03-07 00:00:00,2020-03-10 00:00:00,2020-03-11 00:00:00,2020-03-12 00:00:00,2020-03-13 00:00:00,2020-03-14 00:00:00,2020-03-17 00:00:00,2020-03-18 00:00:00,2020-03-19 00:00:00,2020-03-20 00:00:00,2020-03-21 00:00:00,2020-03-25 00:00:00,2020-03-26 00:00:00,2020-03-27 00:00:00,2020-03-28 00:00:00,2020-03-31 00:00:00
VIGENCIAHASTA,2020-03-03 00:00:00,2020-03-04 00:00:00,2020-03-05 00:00:00,2020-03-06 00:00:00,2020-03-09 00:00:00,2020-03-10 00:00:00,2020-03-11 00:00:00,2020-03-12 00:00:00,2020-03-13 00:00:00,2020-03-16 00:00:00,2020-03-17 00:00:00,2020-03-18 00:00:00,2020-03-19 00:00:00,2020-03-20 00:00:00,2020-03-24 00:00:00,2020-03-25 00:00:00,2020-03-26 00:00:00,2020-03-27 00:00:00,2020-03-30 00:00:00,2020-03-31 00:00:00


In [157]:
df_excel.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
VALOR,3512.17,3455.56,3458.45,3522.41,3584.58,3803.60,3780.39,3835.15,4034.66,3941.92,4099.93,4044.55,4128.38,4153.91,4079.96,4104.90,4086.34,3995.83,4042.80,4064.81
UNIDAD,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP,COP
VIGENCIADESDE,2020-03-03 00:00:00,2020-03-04 00:00:00,2020-03-05 00:00:00,2020-03-06 00:00:00,2020-03-07 00:00:00,2020-03-10 00:00:00,2020-03-11 00:00:00,2020-03-12 00:00:00,2020-03-13 00:00:00,2020-03-14 00:00:00,2020-03-17 00:00:00,2020-03-18 00:00:00,2020-03-19 00:00:00,2020-03-20 00:00:00,2020-03-21 00:00:00,2020-03-25 00:00:00,2020-03-26 00:00:00,2020-03-27 00:00:00,2020-03-28 00:00:00,2020-03-31 00:00:00
VIGENCIAHASTA,2020-03-03 00:00:00,2020-03-04 00:00:00,2020-03-05 00:00:00,2020-03-06 00:00:00,2020-03-09 00:00:00,2020-03-10 00:00:00,2020-03-11 00:00:00,2020-03-12 00:00:00,2020-03-13 00:00:00,2020-03-16 00:00:00,2020-03-17 00:00:00,2020-03-18 00:00:00,2020-03-19 00:00:00,2020-03-20 00:00:00,2020-03-24 00:00:00,2020-03-25 00:00:00,2020-03-26 00:00:00,2020-03-27 00:00:00,2020-03-30 00:00:00,2020-03-31 00:00:00


## Extraer los nombres de todas las columnas del dataset

Con el atributo `columns`, se puede extraer todos los nombres de las columnas del dataset, este retorna una lista co

In [160]:
df_excel.columns.values.tolist()

['VALOR', 'UNIDAD', 'VIGENCIADESDE', 'VIGENCIAHASTA']

## Castear tipo de dato de una columna del dataset

Se puede cambiar el tipo de datos de una columna específica mediante el método `astype()`, puede leer la documentación en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html

In [161]:
df_txt.head()

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro_2019,Compro_2020,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800.0,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900.0,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800.0,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800.0,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0


In [162]:
df_txt["Monto Comprado 2019?"] = df_txt["Monto Comprado 2019?"].astype(int)

In [163]:
df_txt.head()

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro_2019,Compro_2020,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0
