# Pandas

<img src = "Pandas_logo.png" height = "200" width = "200">

Pandas es un módulo que fue creado en 2008 por Wes McKinney, es un proyecto Open Source con una licencia muy permisiva, tiene una comunidad bastante amplia con más de 100 desarrolladores de código que día a día lo hacen mejor. Pandas es una de las librerías más usadas hoy por hoy en lo que respecta a Data science. Esta es una libreria enfocada en el análisis de datos, la cual contiene una serie de estructuras de datos flexibles que permiten tener un manejo más cómodo y eficiente de los datos. Pandas está construida sobre la libreria NumPy, por lo que podemos usar los métodos y funcionalidades de los arreglos de numpy. Además, los objetos de pandas van a ser las estructuras de datos con lo cuales vamos a alimentar los algoritmos de Machine Learning.

Para consultar la documentación oficial de Pandas se puede acceder mediante el siguiente link:
- https://pandas.pydata.org/docs/getting_started/index.html   

<img src = "pandas.jpg" height = "700" width = "700">

## Series

Las series son una de las estructuras centrales de Pandas. Puede pensarlas como un cruce entre una lista y un diccionario. Los items son guardados en orden y hay etiquetas con las cuales se puede recuperar los items.

Una forma de visualizarlo es como 2 columnas de datos, el primero es un índice especial, tal y como el `key` de un diccionario y el segundo son los datos.

Notemos que la columna de los datos tiene una etiqueta por sí misma, y puede consultarse usando el atributo `.name` esto es diferente que con los diccionarios, y es bastante útil a la hora de mezclar diferentes tablas de datos.

<img src = "serie.jpg" height = "300" width = "300">

Así podemos crear una serie:

```Python
import pandas as pd
pd.Series(data = None, index = None, dtype = None, name = None)
```

### Crear una Serie

#### A partir de una lista

In [1]:
import pandas as pd
import numpy as np
import warnings 
warnings.filterwarnings('ignore')

In [2]:
datos = ["Medellin", "Bogota", "Villavicencio"]
serie_1 = pd.Series(data = datos, dtype = str)
serie_1

0         Medellin
1           Bogota
2    Villavicencio
dtype: object

In [3]:
serie_1[1]

'Bogota'

In [4]:
serie_num = pd.Series(data = [1,2,3,4,5,6], dtype = int)
serie_num

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int32

In [5]:
pd.Series(data = ["Eafit", 2, True])

0    Eafit
1        2
2     True
dtype: object

#### A partir de un diccionario

In [6]:
datos = ["Medellin", "Bogota", "Villavicencio"]
serie_2 = pd.Series(data = {
    "Ciudades": datos
})

serie_2["Ciudades"]

['Medellin', 'Bogota', 'Villavicencio']

In [7]:
datos = ["Medellin", "Bogota", "Villavicencio"]
pd.Series(data = {
    0: datos
})

0    [Medellin, Bogota, Villavicencio]
dtype: object

#### A partir de un array

In [8]:
pd.Series(data = np.array([1,2,3,4]))

0    1
1    2
2    3
3    4
dtype: int32

### Acceder a datos de una serie

Para acceder a los datos de una Serie se debe realizar mediante el indice:

```Python
Serie[<Indice>]
```

In [9]:
serie_2["Ciudades"]

['Medellin', 'Bogota', 'Villavicencio']

In [10]:
serie_num[0]

1

# Series name

In [11]:
pd.Series(data = {
    "Antioquia": "Medellin",
    "Meta": "Villavicencio",
    "Cauca": "Popayán"
}, name = "Departamentos")

Antioquia         Medellin
Meta         Villavicencio
Cauca              Popayán
Name: Departamentos, dtype: object

### Operaciones de una Serie

Se pueden realizar operaciones y calculos a partir de una Serie, recordemos que Pandas está basado en Numpy, es decir que se pueden utilizar multiples métodos para hacer operaciones como por ejemplo operaciones estadísticas.

In [12]:
serie_num = pd.Series(data = [1,2,3,4])
serie_num_2 = pd.Series(data = [100,200,300,400])

Se pueden realizar operaciones matematicas simples las cuales se aplican a todos los elementos dentro de la serie, veamos un ejemplo:

In [13]:
serie_num + serie_num_2

0    101
1    202
2    303
3    404
dtype: int64

In [14]:
serie_num - serie_num_2

0    -99
1   -198
2   -297
3   -396
dtype: int64

### Operaciones de una o mas Series

Tambien se puede operar dos o mas Series como vemos a continuación:

In [15]:
serie_num - serie_num_2 - serie_num_2

0   -199
1   -398
2   -597
3   -796
dtype: int64

In [16]:
serie_num = pd.Series(data = [1,2,3])
serie_num_2 = pd.Series(data = [100,200,300,400])

In [17]:
resultado = serie_num - serie_num_2
resultado

0    -99.0
1   -198.0
2   -297.0
3      NaN
dtype: float64

In [18]:
type(resultado[3])
# NoneType

numpy.float64

In [19]:
# NaN = Not a number
# None
# null

**Nota:**

Tener cuidado con los tamaños de la Series a la hora de realizar operaciones entre ellas

### Ejercicio

Hacer un programa que pregunte a un usuario por las ventas de un rango de años, y muestre por pantalla una serie con los datos de las ventas donde el indice de la serie debe ser el año que corresponde a la venta, luego, a esa misma serie apliquele un descuento del 10% a cada una de las ventas por año.

- Para pedir un dato de entrada por pantalla utilice el método input(), recuerde que este método devuelve siempre un string de datos

# inicio = int(input("Ingrese el año inicial: "))
fin = int(input("Ingrese el año final: "))
dict_aux = {}

for i in range(inicio, fin+1):
    dict_aux[i] = float(input("Ingrese el valor de la venta: "))
    
serie_val = pd.Series(data = dict_aux)
serie_val*0.9

## DataFrames

El DataFrame es una estructura de datos que podría bien ser considerada el corazón de el módulo de Pandas. Es el objeto primario con el cual un analista de datos en python puede encontrarse trabajando.

Uno puede pensar en un DataFrame como aquello donde tenemos un índice y múltiples columnas, donde cada columna tendrá una etiqueta y su respectivo índice. Existen multiples formas de hacer un DataFrame, podemos usar un grupo de series, donde cada representaría una fila de datos o también podríamos usar diccionarios de datos.

**Etructura de un DataFrame:**


<img src = "dataframe.jpg" height = "700" width = "700">

### Crear un DataFrame

Para crear un DataFrame se puede utilizar el siguiente método de Pandas, donde se puede crear a partir de un diccionario de datos de una o múltiples series


```Python
import pandas as pd
pd.DataFrame(data = None, index = None, columns = None, dtype = None)
```

#### Apartir de una serie

In [21]:
datos = pd.Series(data = {
    "Antioquia": "Medellin",
    "Meta": "Villavicencio",
    "Cauca": "Popayán"
})

datos

Antioquia         Medellin
Meta         Villavicencio
Cauca              Popayán
dtype: object

In [22]:
df = pd.DataFrame(data = datos).rename(columns = {0: "Ciudades"})

#### Apartir de múltiples Series

In [23]:
datos_1 = pd.Series(data = {
    "Nombre": "Carlos",
    "Apellido": "Ramirez",
    "Residencia": "Castilla"
})

datos_2 = pd.Series(data = {
    "Nombre": "Sara",
    "Apellido": "Alvarez",
    "Residencia": "Robledo"
})

datos_3 = pd.Series(data = {
    "Nombre": "David",
    "Apellido": "Piedrahita",
    "Residencia": "Aranjuez"
})

df_end = pd.DataFrame(data = [datos_1, datos_2, datos_3])
df_end

Unnamed: 0,Nombre,Apellido,Residencia
0,Carlos,Ramirez,Castilla
1,Sara,Alvarez,Robledo
2,David,Piedrahita,Aranjuez


#### Apartir de un diccionario de datos

In [24]:
dato = "Aranjuez"

try:
    
    dict_datos = {
        "Nombre": ["Carlos", "Sara", "David"],
        "Apellido": ["Ramirez", "Alvarez", "Piedrahita"],
        "Residencia": ["Castilla", "Robledo"]
    }
    
    print(pd.DataFrame(dict_datos))
    
except:
    print("Error: Verifique el tamaño de los datos")

Error: Verifique el tamaño de los datos


In [25]:
dict_datos = {
    "Nombre": ["Carlos", "Sara", "David"],
    "Apellido": ["Ramirez", "Alvarez", "Piedrahita"],
    "Residencia": ["Castilla", "Robledo", "Aranjuez"]
}

df = pd.DataFrame(dict_datos)
df

Unnamed: 0,Nombre,Apellido,Residencia
0,Carlos,Ramirez,Castilla
1,Sara,Alvarez,Robledo
2,David,Piedrahita,Aranjuez


In [26]:
print(pd.DataFrame(dict_datos))

   Nombre    Apellido Residencia
0  Carlos     Ramirez   Castilla
1    Sara     Alvarez    Robledo
2   David  Piedrahita   Aranjuez


In [27]:
display(pd.DataFrame(dict_datos))

Unnamed: 0,Nombre,Apellido,Residencia
0,Carlos,Ramirez,Castilla
1,Sara,Alvarez,Robledo
2,David,Piedrahita,Aranjuez


### Acceder a las columnas de un DataFrame

In [28]:
df["Apellido"]

0       Ramirez
1       Alvarez
2    Piedrahita
Name: Apellido, dtype: object

In [29]:
df[0:2]

Unnamed: 0,Nombre,Apellido,Residencia
0,Carlos,Ramirez,Castilla
1,Sara,Alvarez,Robledo


In [30]:
df[2:3]

Unnamed: 0,Nombre,Apellido,Residencia
2,David,Piedrahita,Aranjuez


In [31]:
df[0:]

Unnamed: 0,Nombre,Apellido,Residencia
0,Carlos,Ramirez,Castilla
1,Sara,Alvarez,Robledo
2,David,Piedrahita,Aranjuez


### Acceder a filas de un DataFrame

In [32]:
df["Apellido"][1]

'Alvarez'

### Operaciones con Dataframes

Al igual que las Series, a los DataFrames tambien se le pueden realizar operaciones de Numpy y operaciones matemáticas

In [33]:
dict_datos = {
    "Nombre": ["Carlos", "Sara", "David"],
    "Apellido": ["Ramirez", "Alvarez", "Piedrahita"],
    "Notas": [4.5, 2.0, 3.8]
}

df = pd.DataFrame(dict_datos)
df

Unnamed: 0,Nombre,Apellido,Notas
0,Carlos,Ramirez,4.5
1,Sara,Alvarez,2.0
2,David,Piedrahita,3.8


In [34]:
df["Notas"].max()

4.5

In [35]:
df["Notas"].mean()

3.4333333333333336

In [36]:
np.mean(df["Notas"])

3.4333333333333336

In [37]:
dict_datos = {
    "Parciales": [3.5, 4.8, 2.8],
    "Quices": [2.8, 4, 4],
    "Nota_final": [4.5, 2.0, 3.8]
}

df = pd.DataFrame(dict_datos)
df

Unnamed: 0,Parciales,Quices,Nota_final
0,3.5,2.8,4.5
1,4.8,4.0,2.0
2,2.8,4.0,3.8


In [38]:
df.mean()

Parciales     3.700000
Quices        3.600000
Nota_final    3.433333
dtype: float64

In [39]:
print(df["Parciales"].mean())
print(df["Quices"].mean())
print(df["Nota_final"].mean())

3.7000000000000006
3.6
3.4333333333333336


In [40]:
dict_datos = {
    "Nombres": ["David", "Carlos", "Juan"],
    "Parciales": [3.5, 4.8, 2.8],
    "Quices": [2.8, 4, 4],
    "Nota_final": [4.5, 2.0, 3.8]
}

df = pd.DataFrame(dict_datos)
df.mean()

Parciales     3.700000
Quices        3.600000
Nota_final    3.433333
dtype: float64

### Crear columna nueva

In [41]:
df["Apellidos"] = ["Piedrahita", "Ramirez", "Bedoya"]
df

Unnamed: 0,Nombres,Parciales,Quices,Nota_final,Apellidos
0,David,3.5,2.8,4.5,Piedrahita
1,Carlos,4.8,4.0,2.0,Ramirez
2,Juan,2.8,4.0,3.8,Bedoya


In [42]:
df["Residencia"] = "Aranjuez"
df

Unnamed: 0,Nombres,Parciales,Quices,Nota_final,Apellidos,Residencia
0,David,3.5,2.8,4.5,Piedrahita,Aranjuez
1,Carlos,4.8,4.0,2.0,Ramirez,Aranjuez
2,Juan,2.8,4.0,3.8,Bedoya,Aranjuez


In [43]:
df = df[["Nombres", 
         "Apellidos", 
         "Residencia", 
         "Parciales", 
         "Quices", 
         "Nota_final"]]
df

Unnamed: 0,Nombres,Apellidos,Residencia,Parciales,Quices,Nota_final
0,David,Piedrahita,Aranjuez,3.5,2.8,4.5
1,Carlos,Ramirez,Aranjuez,4.8,4.0,2.0
2,Juan,Bedoya,Aranjuez,2.8,4.0,3.8


In [44]:
df.sort_values(by = ["Nota_final"], ascending = False)

Unnamed: 0,Nombres,Apellidos,Residencia,Parciales,Quices,Nota_final
0,David,Piedrahita,Aranjuez,3.5,2.8,4.5
2,Juan,Bedoya,Aranjuez,2.8,4.0,3.8
1,Carlos,Ramirez,Aranjuez,4.8,4.0,2.0


In [45]:
df.sort_values(by = ["Apellidos"], ascending = True)

Unnamed: 0,Nombres,Apellidos,Residencia,Parciales,Quices,Nota_final
2,Juan,Bedoya,Aranjuez,2.8,4.0,3.8
0,David,Piedrahita,Aranjuez,3.5,2.8,4.5
1,Carlos,Ramirez,Aranjuez,4.8,4.0,2.0


In [46]:
df["Cedula"] = ["111111111", "2222222", "33333333"]
df = df.set_index("Cedula", drop = True)
df

Unnamed: 0_level_0,Nombres,Apellidos,Residencia,Parciales,Quices,Nota_final
Cedula,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
111111111,David,Piedrahita,Aranjuez,3.5,2.8,4.5
2222222,Carlos,Ramirez,Aranjuez,4.8,4.0,2.0
33333333,Juan,Bedoya,Aranjuez,2.8,4.0,3.8


### Modificar una columna ya creada

In [47]:
df["Parciales"][0] = 3.9

In [48]:
df["Quices"] = df["Quices"]+1
df

Unnamed: 0_level_0,Nombres,Apellidos,Residencia,Parciales,Quices,Nota_final
Cedula,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
111111111,David,Piedrahita,Aranjuez,3.9,3.8,4.5
2222222,Carlos,Ramirez,Aranjuez,4.8,5.0,2.0
33333333,Juan,Bedoya,Aranjuez,2.8,5.0,3.8


# Lectura de Datos con Pandas

Pandas permite leer múltiples tipos de archivos como xls, xlsx, csv, txt, json y entre otros. el archivo más común y fácil de leer es el tipo csv o txt.

Para leer datos con Pandas se utiliza el siguiente método:

```Python
import pandas as pd

pd.read_csv()
pd.read_excel()
pd.read_json()
      .
      .
      .
```

Existen múltiples páginas web que permiten descargar datos abiertos que pueden ser utilizados para hacer análisis de datos, algunas de ellas son:

- Datos Abiertos del **Gobierno**: https://www.datos.gov.co/browse?sortBy=newest
- Datos Abiertos de **MinTIC**: https://colombiatic.mintic.gov.co/679/w3-propertyvalue-36342.html
- Datos Abiertos de **Kaggle**: https://www.kaggle.com/datasets

Para aprender acerca de Python:
- https://realpython.com/
- https://www.datacamp.com/
- https://www.dataquest.io/
- https://www.udacity.com/

## Leer archivo tipo json

JSON o JavaScript Object Notation es un formato de intercambio de Datos. JSON surgió de la necesidad de un protocolo de comunicación de servidor a navegador en tiempo real y es uno de los formatos más utilizados para tal fin.

In [49]:
path_folder = r"C:\Users\David.Piedrahita\OneDrive - Idata\Datos\grupo_02_DS_NB\datasets\resultados_electorales.json"
df_json = pd.read_json(path_folder)
df_json

Unnamed: 0,ncircunscripcion,ndepto,nmpio,zz,pp,npuesto,mesa,candidato,votos,partido
0,INDIGENAS,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,15,VOTOS EN BLANCO,1,
1,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,SOLO POR EL PARTIDO,12,PARTIDO LIBERAL COLOMBIANO
2,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,EDUAR LUIS BENJUMEA MORENO,18,PARTIDO LIBERAL COLOMBIANO
3,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,MELQUI ANDRES MARIN ELIZALDE,3,PARTIDO LIBERAL COLOMBIANO
4,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,1,1,IE INEM JOSE EUSTACIO RIVERA,1,HASSAM CANO DE LA CRUZ,8,PARTIDO LIBERAL COLOMBIANO
...,...,...,...,...,...,...,...,...,...,...
995,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,YESIKA LARRAÑAGA,2,PARTIDO ALIANZA VERDE
996,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,SOLO POR EL PARTIDO,1,PARTIDO POLÍTICO MIRA
997,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,SOLO POR EL PARTIDO,3,PARTIDO SOCIAL DE UNIDAD NACIONAL PARTIDO DE LA U
998,TERRITORIAL DEPARTAMENTAL,AMAZONAS,LETICIA,2,1,IE MARCELIANO E. CAYNES,1,HAROLD AUGUSTO VALENCIA INFANTE,15,PARTIDO SOCIAL DE UNIDAD NACIONAL PARTIDO DE LA U


## Leer archivo de Excel

Los archivos de Excel son de los más comunes y etsos pueden leerse de la siguiente forma:

In [50]:
df_excel = pd.read_excel(r"C:\Users\David.Piedrahita\OneDrive - Idata\Datos\grupo_02_DS_NB\datasets\Tasa_de_Cambio_Representativa_del_Mercado-_TRM.xlsx", 
                         sheet_name = "Julio", 
                         header = 1)
df_excel

Unnamed: 0,VALOR,UNIDAD,VIGENCIADESDE,VIGENCIAHASTA
0,3932.72,COP,2020-05-01,2020-05-04
1,3990.1,COP,2020-05-05,2020-05-05
2,3926.07,COP,2020-05-06,2020-05-06
3,3961.66,COP,2020-05-07,2020-05-07
4,3924.54,COP,2020-05-08,2020-05-08
5,3882.27,COP,2020-05-09,2020-05-11


## Leer archivo CSV

In [51]:
df_csv = pd.read_csv(r"C:\Users\David.Piedrahita\OneDrive - Idata\Datos\grupo_02_DS_NB\datasets\Automobile_data.csv")
df_csv

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
200,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470


## Leer archivo txt

In [52]:
df_txt = pd.read_csv(r"C:\Users\David.Piedrahita\OneDrive - Idata\Datos\grupo_02_DS_NB\datasets\Data DS Cotton Plus_new_2.txt")
df_txt

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800.0,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900.0,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800.0,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800.0,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9971,9972,Nombre Cliente 9972,Aficionados,Si,No,191260.0,4,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
9972,9973,Nombre Cliente 9973,Aficionados,Si,No,371600.0,5,0.0,0,10100,...,,,0,0,0,0,0,0,0,0
9973,9974,Nombre Cliente 9974,Aficionados,Si,No,254960.0,3,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
9974,9975,Nombre Cliente 9975,Esporádicos,Si,No,159920.0,1,0.0,0,10001,...,,,0,0,0,0,0,0,0,0


In [53]:
df_csv = pd.read_csv(r"C:\Users\David.Piedrahita\OneDrive - Idata\Datos\grupo_02_DS_NB\datasets\Data DS Cotton Plus_new_2 - copia.txt", sep = ";")
df_csv

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800.0,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900.0,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800.0,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800.0,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9971,9972,Nombre Cliente 9972,Aficionados,Si,No,191260.0,4,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
9972,9973,Nombre Cliente 9973,Aficionados,Si,No,371600.0,5,0.0,0,10100,...,,,0,0,0,0,0,0,0,0
9973,9974,Nombre Cliente 9974,Aficionados,Si,No,254960.0,3,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
9974,9975,Nombre Cliente 9975,Esporádicos,Si,No,159920.0,1,0.0,0,10001,...,,,0,0,0,0,0,0,0,0


In [54]:
df_csv = pd.read_csv(r"C:\Users\David.Piedrahita\OneDrive - Idata\Datos\grupo_02_DS_NB\datasets\Data DS Cotton Plus_new_2 - copia - copia.txt", sep = "|")
df_csv

Unnamed: 0,Cedula,Nombre Completo,Segmento,Compro 2019?,Compro 2020?,Monto Comprado 2019?,Nro Transacciones 2019,Monto Comprado 2020,Nro Transacciones 2020,Tipo de Contacto,...,TelefonoOficina,Telefono Casa,Monto - MARCA COTTON- B/quilla.,Monto - Brand Store Cucuta,Monto - MARCA COTTON- Bucaramanga,Monto - MARCA COTTON- Manizales,Monto - MARCA COTTON- Pereira,Monto - MARCA COTTON- Cartagena,Monto - MARCA COTTON- Pasto,Monto - MARCA COTTON- Cable Plaza
0,1,Nombre Cliente 1,Aficionados,Si,No,264800.0,2,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
1,2,Nombre Cliente 2,Esporádicos,Si,No,179900.0,1,0.0,0,11001,...,,,179900,0,0,0,0,0,0,0
2,3,Nombre Cliente 3,Aficionados,Si,No,189800.0,2,0.0,0,11101,...,,,451200,0,0,0,0,0,0,0
3,4,Nombre Cliente 4,Aficionados,Si,No,65900.0,1,0.0,0,11001,...,,,0,0,0,0,0,0,0,1859600
4,5,Nombre Cliente 5,Aficionados,Si,No,238800.0,2,0.0,0,11101,...,,,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9971,9972,Nombre Cliente 9972,Aficionados,Si,No,191260.0,4,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
9972,9973,Nombre Cliente 9973,Aficionados,Si,No,371600.0,5,0.0,0,10100,...,,,0,0,0,0,0,0,0,0
9973,9974,Nombre Cliente 9974,Aficionados,Si,No,254960.0,3,0.0,0,11001,...,,,0,0,0,0,0,0,0,0
9974,9975,Nombre Cliente 9975,Esporádicos,Si,No,159920.0,1,0.0,0,10001,...,,,0,0,0,0,0,0,0,0


## Formas de leer un directorio

Existen múltiples maneras de leer un directorio que se ecnuentra local en el PC, a continuación veremos las 3 formas mas scencillas y simples para apuntar a un directorio específico

### Forma 1

Como vimos anteriormente se quema la dirección del path y antes de las comillas iniciales se pone la letra `"r"`

In [55]:
df_csv = pd.read_csv(r"C:\Users\David.Piedrahita\OneDrive - Idata\Datos\grupo_02_DS_NB\datasets\Automobile_data.csv")

### Forma 2

En lugar de poner la r antes de las comillas se puede duplicar el `"\"` de la siguiente forma:

In [56]:
df_csv = pd.read_csv("C:\\Users\\David.Piedrahita\\OneDrive - Idata\\Datos\\grupo_02_DS_NB\\datasets\\Automobile_data.csv")

### Forma 3

Se puede cambiar el `"/"` por un `"\"`, así:

In [57]:
df_csv = pd.read_csv("C:/Users/David.Piedrahita/OneDrive - Idata/Datos/grupo_02_DS_NB/datasets/Automobile_data.csv")

### Forma 4

In [58]:
import os

In [59]:
mainpath = "C:/Users/David.Piedrahita/OneDrive - Idata/Datos/grupo_02_DS_NB/"
filename = "datasets/Automobile_data.csv"
fullpath = os.path.join(mainpath, filename)

df_csv = pd.read_csv(fullpath)
df_csv

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
200,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470


# Algunos métodos y atributos básicos con DataFrames

Como vimos anteriormente, se pueden realizar operaciones con DataFrames, acontinuación veremos otrso métodos asociados a los DataFrames que son bastante útiles, como resetear indices, eliminar columnas y entre otros

## Resetear indices

Este método es muy útil ya que permite resetear los indices de un DataFrame utilizando el método `reset_index()`, puede consultar la documentación en el siguiente link:

- https://pandas.pydata.org/pandas-docs/dev/reference/api/pandas.DataFrame.reset_index.html

In [60]:
df_csv["index"] = 0
df_csv.set_index("index", drop = True, inplace = True)
df_csv

Unnamed: 0_level_0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
0,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
0,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
0,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
0,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
0,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
0,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
0,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470


In [61]:
df_csv.reset_index(inplace = True)
df_csv

Unnamed: 0,index,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,0,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,0,2,164,audi,gas,std,four,sedan,fwd,front,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,0,2,164,audi,gas,std,four,sedan,4wd,front,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
200,0,-1,95,volvo,gas,std,four,sedan,rwd,front,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,0,-1,95,volvo,gas,turbo,four,sedan,rwd,front,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,0,-1,95,volvo,gas,std,four,sedan,rwd,front,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,0,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470


In [62]:
df_csv.reset_index(drop = True ,inplace = True)
df_csv

Unnamed: 0,index,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,0,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,0,2,164,audi,gas,std,four,sedan,fwd,front,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,0,2,164,audi,gas,std,four,sedan,4wd,front,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
200,0,-1,95,volvo,gas,std,four,sedan,rwd,front,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,0,-1,95,volvo,gas,turbo,four,sedan,rwd,front,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,0,-1,95,volvo,gas,std,four,sedan,rwd,front,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,0,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470


## Eliminar filas o columnas

Para ello utilizaremos el método `drop()` el cual permite eliminar una fila o una columna, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html

### Eliminar columna

In [63]:
df_csv = df_csv.drop(["symboling", "normalized-losses"], axis = 1)
df_csv

Unnamed: 0,index,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,0,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,171.2,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,0,audi,gas,std,four,sedan,fwd,front,99.8,176.6,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,0,audi,gas,std,four,sedan,4wd,front,99.4,176.6,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
200,0,volvo,gas,std,four,sedan,rwd,front,109.1,188.8,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,0,volvo,gas,turbo,four,sedan,rwd,front,109.1,188.8,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,0,volvo,gas,std,four,sedan,rwd,front,109.1,188.8,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,0,volvo,diesel,turbo,four,sedan,rwd,front,109.1,188.8,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470


Algunos métodos de Pandas tienen un parametro llamado `inplace` el cual permite aplicar el método sin necesidad de hacer una asignación

In [64]:
df_csv.drop(["make"], axis = 1, inplace = True)
df_csv

Unnamed: 0,index,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,0,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,0,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,0,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,0,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,0,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
200,0,gas,std,four,sedan,rwd,front,109.1,188.8,68.9,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,0,gas,turbo,four,sedan,rwd,front,109.1,188.8,68.8,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,0,gas,std,four,sedan,rwd,front,109.1,188.8,68.9,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,0,diesel,turbo,four,sedan,rwd,front,109.1,188.8,68.9,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470


In [65]:
df_csv

Unnamed: 0,index,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,0,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,0,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,0,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,0,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,0,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
200,0,gas,std,four,sedan,rwd,front,109.1,188.8,68.9,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,0,gas,turbo,four,sedan,rwd,front,109.1,188.8,68.8,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,0,gas,std,four,sedan,rwd,front,109.1,188.8,68.9,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,0,diesel,turbo,four,sedan,rwd,front,109.1,188.8,68.9,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470


In [66]:
df_csv.drop([0], axis = 0, inplace = True)
df_csv

Unnamed: 0,index,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
1,0,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,0,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,0,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,0,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,0,gas,std,two,sedan,fwd,front,99.8,177.3,66.3,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
200,0,gas,std,four,sedan,rwd,front,109.1,188.8,68.9,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,0,gas,turbo,four,sedan,rwd,front,109.1,188.8,68.8,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,0,gas,std,four,sedan,rwd,front,109.1,188.8,68.9,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,0,diesel,turbo,four,sedan,rwd,front,109.1,188.8,68.9,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470


## Ordenar valores de una columna

Con el método `sort_values()` se pueden ordenar de forma ascendente o descendente los valores de una columna, por defecto ordenará los valores de forma ascendente, puede consultar la documentación en el siguientev link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html

In [68]:
df_csv_copia = df_csv.copy()

In [69]:
df_csv_copia.sort_values(by = ["wheel-base"], inplace = True, ascending = False)
df_csv_copia

Unnamed: 0,index,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
73,0,gas,std,four,sedan,rwd,front,120.9,208.1,71.7,...,308,mpfi,3.8,3.35,8.0,184,4500,14,16,40960
71,0,gas,std,four,sedan,rwd,front,115.6,202.6,71.7,...,234,mpfi,3.46,3.1,8.3,155,4750,16,18,34184
70,0,diesel,turbo,four,sedan,rwd,front,115.6,202.6,71.7,...,183,idi,3.58,3.64,21.5,123,4350,22,25,31600
114,0,diesel,turbo,four,wagon,rwd,front,114.2,198.9,68.4,...,152,idi,3.7,3.52,21.0,95,4150,25,25,17075
113,0,gas,std,four,wagon,rwd,front,114.2,198.9,68.4,...,120,mpfi,3.46,2.19,8.4,95,5000,19,24,16695
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
126,0,gas,std,two,hardtop,rwd,rear,89.5,168.9,65.0,...,194,mpfi,3.74,2.9,9.5,207,5900,17,25,32528
1,0,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
18,0,gas,std,two,hatchback,fwd,front,88.4,141.1,60.3,...,61,2bbl,2.91,3.03,9.5,48,5100,47,53,5151
30,0,gas,std,two,hatchback,fwd,front,86.6,144.6,63.9,...,92,1bbl,2.91,3.41,9.6,58,4800,49,54,6479


## Type, dtypes, shape, info, count

- **type**: Sirve para saber el tipo de dato del objeto
- **dtypes**: devuelve el tipo de dato de cada columna del DataFrame
- **shape**: nos dice la forma del DataFrame, es decir, la cantidad de filas y de columnas
- **info**: Devuelve información básica del DataFrame, como el tipo de dato de cada columna, las de columnas del dataset, memoria que ocupa el dataset y entre otros 

In [70]:
type(df_csv_copia)

pandas.core.frame.DataFrame

In [71]:
pd.DataFrame(df_csv_copia.dtypes)

Unnamed: 0,0
index,int64
fuel-type,object
aspiration,object
num-of-doors,object
body-style,object
drive-wheels,object
engine-location,object
wheel-base,float64
length,float64
width,float64


In [72]:
df_csv_copia.shape

(204, 24)

In [73]:
df_csv_copia.count()

index                204
fuel-type            204
aspiration           204
num-of-doors         204
body-style           204
drive-wheels         204
engine-location      204
wheel-base           204
length               204
width                204
height               204
curb-weight          204
engine-type          204
num-of-cylinders     204
engine-size          204
fuel-system          204
bore                 204
stroke               204
compression-ratio    204
horsepower           204
peak-rpm             204
city-mpg             204
highway-mpg          204
price                204
dtype: int64

In [74]:
df_csv_copia.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 204 entries, 73 to 31
Data columns (total 24 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   index              204 non-null    int64  
 1   fuel-type          204 non-null    object 
 2   aspiration         204 non-null    object 
 3   num-of-doors       204 non-null    object 
 4   body-style         204 non-null    object 
 5   drive-wheels       204 non-null    object 
 6   engine-location    204 non-null    object 
 7   wheel-base         204 non-null    float64
 8   length             204 non-null    float64
 9   width              204 non-null    float64
 10  height             204 non-null    float64
 11  curb-weight        204 non-null    int64  
 12  engine-type        204 non-null    object 
 13  num-of-cylinders   204 non-null    object 
 14  engine-size        204 non-null    int64  
 15  fuel-system        204 non-null    object 
 16  bore               204 non

## Resumen estadístico del Dataset

Pandas ofrece una forma rápida de calcular alguna medidas de tendencia central, dipersión y entre otras con el método `describe()`, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html

### Para variables numéricas

In [75]:
df_csv_copia.describe(percentiles = [0.25, 0.50]).T.drop(["max", "min"], axis = 1)

Unnamed: 0,count,mean,std,25%,50%
index,204.0,0.0,0.0,0.0,0.0
wheel-base,204.0,98.806373,5.994144,94.5,97.0
length,204.0,174.075,12.362123,166.3,173.2
width,204.0,65.916667,2.146716,64.075,65.5
height,204.0,53.74902,2.424901,52.0,54.1
curb-weight,204.0,2555.602941,521.96082,2145.0,2414.0
engine-size,204.0,126.892157,41.744569,97.0,119.5
compression-ratio,204.0,10.148137,3.981,8.575,9.0
city-mpg,204.0,25.240196,6.551513,19.0,24.0
highway-mpg,204.0,30.769608,6.898337,25.0,30.0


### Para variables categóricas

In [76]:
df_csv_copia.describe(include = "O").T

Unnamed: 0,count,unique,top,freq
fuel-type,204,2,gas,184
aspiration,204,2,std,167
num-of-doors,204,3,four,114
body-style,204,5,sedan,96
drive-wheels,204,3,fwd,120
engine-location,204,2,front,201
engine-type,204,7,ohc,148
num-of-cylinders,204,7,four,158
fuel-system,204,8,mpfi,93
bore,204,39,3.62,23


### Método Unique()

In [77]:
len(df_csv_copia["num-of-doors"].unique())

3

## Transponer DataFrame

Cuando se transpone un DataFrame las columnas toman el lugar del index, así:

In [78]:
df_csv_copia.describe(include = "O")

Unnamed: 0,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,engine-type,num-of-cylinders,fuel-system,bore,stroke,horsepower,peak-rpm,price
count,204,204,204,204,204,204,204,204,204,204.0,204.0,204,204,204
unique,2,2,3,5,3,2,7,7,8,39.0,37.0,60,24,186
top,gas,std,four,sedan,fwd,front,ohc,four,mpfi,3.62,3.4,68,5500,?
freq,184,167,114,96,120,201,148,158,93,23.0,20.0,19,37,4


In [79]:
df_csv_copia.describe(include = "O").T

Unnamed: 0,count,unique,top,freq
fuel-type,204,2,gas,184
aspiration,204,2,std,167
num-of-doors,204,3,four,114
body-style,204,5,sedan,96
drive-wheels,204,3,fwd,120
engine-location,204,2,front,201
engine-type,204,7,ohc,148
num-of-cylinders,204,7,four,158
fuel-system,204,8,mpfi,93
bore,204,39,3.62,23


In [80]:
df_csv_copia.describe(include = "O").transpose()

Unnamed: 0,count,unique,top,freq
fuel-type,204,2,gas,184
aspiration,204,2,std,167
num-of-doors,204,3,four,114
body-style,204,5,sedan,96
drive-wheels,204,3,fwd,120
engine-location,204,2,front,201
engine-type,204,7,ohc,148
num-of-cylinders,204,7,four,158
fuel-system,204,8,mpfi,93
bore,204,39,3.62,23


## Conteo de clases de una variable categórica Value_counts()

Se puede utilizar el método `value_counts()` para contar la cantidad de registros asociadas a cada una de las clases de una variable categórica, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.value_counts.html

In [81]:
df_csv_copia["num-of-doors"].value_counts(ascending = False)

four    114
two      88
?         2
Name: num-of-doors, dtype: int64

## Renombrar columnas

A veces resulta siendo útil renombrar las columnas de un dataset, para ello se utiliza el método `rename()`, puede consultar la documentaicón en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html

In [82]:
df_csv_copia.rename(columns = {"fuel-type": "fuel_type", 
                               "body-style": "body_style"}, inplace = True)

df_csv_copia

Unnamed: 0,index,fuel_type,aspiration,num-of-doors,body_style,drive-wheels,engine-location,wheel-base,length,width,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
73,0,gas,std,four,sedan,rwd,front,120.9,208.1,71.7,...,308,mpfi,3.8,3.35,8.0,184,4500,14,16,40960
71,0,gas,std,four,sedan,rwd,front,115.6,202.6,71.7,...,234,mpfi,3.46,3.1,8.3,155,4750,16,18,34184
70,0,diesel,turbo,four,sedan,rwd,front,115.6,202.6,71.7,...,183,idi,3.58,3.64,21.5,123,4350,22,25,31600
114,0,diesel,turbo,four,wagon,rwd,front,114.2,198.9,68.4,...,152,idi,3.7,3.52,21.0,95,4150,25,25,17075
113,0,gas,std,four,wagon,rwd,front,114.2,198.9,68.4,...,120,mpfi,3.46,2.19,8.4,95,5000,19,24,16695
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
126,0,gas,std,two,hardtop,rwd,rear,89.5,168.9,65.0,...,194,mpfi,3.74,2.9,9.5,207,5900,17,25,32528
1,0,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
18,0,gas,std,two,hatchback,fwd,front,88.4,141.1,60.3,...,61,2bbl,2.91,3.03,9.5,48,5100,47,53,5151
30,0,gas,std,two,hatchback,fwd,front,86.6,144.6,63.9,...,92,1bbl,2.91,3.41,9.6,58,4800,49,54,6479


## Extraer los nombres de todas las columnas del dataset

Con el atributo `columns`, se puede extraer todos los nombres de las columnas del dataset, este retorna una lista co

In [83]:
df_csv_copia.columns

Index(['index', 'fuel_type', 'aspiration', 'num-of-doors', 'body_style',
       'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width',
       'height', 'curb-weight', 'engine-type', 'num-of-cylinders',
       'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio',
       'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price'],
      dtype='object')

### Método tolist() y list()

In [84]:
df_csv_copia.columns.tolist()

['index',
 'fuel_type',
 'aspiration',
 'num-of-doors',
 'body_style',
 'drive-wheels',
 'engine-location',
 'wheel-base',
 'length',
 'width',
 'height',
 'curb-weight',
 'engine-type',
 'num-of-cylinders',
 'engine-size',
 'fuel-system',
 'bore',
 'stroke',
 'compression-ratio',
 'horsepower',
 'peak-rpm',
 'city-mpg',
 'highway-mpg',
 'price']

In [85]:
list(df_csv_copia.columns)

['index',
 'fuel_type',
 'aspiration',
 'num-of-doors',
 'body_style',
 'drive-wheels',
 'engine-location',
 'wheel-base',
 'length',
 'width',
 'height',
 'curb-weight',
 'engine-type',
 'num-of-cylinders',
 'engine-size',
 'fuel-system',
 'bore',
 'stroke',
 'compression-ratio',
 'horsepower',
 'peak-rpm',
 'city-mpg',
 'highway-mpg',
 'price']

## Castear tipo de dato de una columna del dataset

Se puede cambiar el tipo de datos de una columna específica mediante el método `astype()`, puede leer la documentación en el siguiente link:

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html

In [86]:
df_csv_copia["width"].dtypes

dtype('float64')

In [87]:
df_csv_copia["width"] = df_csv_copia["width"].astype(str)
df_csv_copia["width"].dtypes

dtype('O')

In [88]:
df_csv_copia["width"] = df_csv_copia["width"].astype("float32")
df_csv_copia["width"].dtypes

dtype('float32')

In [89]:
df_csv_copia["price"] = df_csv_copia["width"].astype(str)
df_csv_copia["price"].dtypes

dtype('O')

In [90]:
df_csv_copia["price"].unique()

array(['71.7', '68.4', '69.6', '72.0', '70.9', '70.3', '68.9', '68.8',
       '68.3', '71.4', '66.1', '66.5', '67.2', '66.9', '67.9', '64.6',
       '67.7', '68.0', '70.6', '64.8', '66.2', '66.3', '66.4', '65.6',
       '72.3', '65.5', '65.2', '65.4', '70.5', '66.0', '62.5', '63.9',
       '64.0', '66.6', '63.6', '64.4', '65.7', '63.8', '64.2', '61.8',
       '63.4', '65.0', '64.1', '60.3'], dtype=object)

In [91]:
df_csv_copia.describe(include = "O").T

Unnamed: 0,count,unique,top,freq
fuel_type,204,2,gas,184
aspiration,204,2,std,167
num-of-doors,204,3,four,114
body_style,204,5,sedan,96
drive-wheels,204,3,fwd,120
engine-location,204,2,front,201
engine-type,204,7,ohc,148
num-of-cylinders,204,7,four,158
fuel-system,204,8,mpfi,93
bore,204,39,3.62,23


In [93]:
## Terner en cuenta que nose puede convertir un string tipo "palabra" a un formato numérico
# df_csv_copia["num-of-doors"] = df_csv_copia["num-of-doors"].astype("float32")

In [94]:
df_test = pd.DataFrame({
    "precio": ["2390", "12234", "7193012.9"]
})

df_test

Unnamed: 0,precio
0,2390.0
1,12234.0
2,7193012.9


In [95]:
df_test["precio"] = df_test["precio"].astype(float)
df_test["precio"].dtypes

dtype('float64')

### Método to_csv()

In [96]:
df_csv_copia.to_csv("eliminar_tabla.csv", index = False)

### Método head() y tail()

In [97]:
df_csv_copia.head(2)

Unnamed: 0,index,fuel_type,aspiration,num-of-doors,body_style,drive-wheels,engine-location,wheel-base,length,width,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
73,0,gas,std,four,sedan,rwd,front,120.9,208.1,71.699997,...,308,mpfi,3.8,3.35,8.0,184,4500,14,16,71.7
71,0,gas,std,four,sedan,rwd,front,115.6,202.6,71.699997,...,234,mpfi,3.46,3.1,8.3,155,4750,16,18,71.7


In [98]:
df_csv_copia.tail(2)

Unnamed: 0,index,fuel_type,aspiration,num-of-doors,body_style,drive-wheels,engine-location,wheel-base,length,width,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
30,0,gas,std,two,hatchback,fwd,front,86.6,144.6,63.900002,...,92,1bbl,2.91,3.41,9.6,58,4800,49,54,63.9
31,0,gas,std,two,hatchback,fwd,front,86.6,144.6,63.900002,...,92,1bbl,2.91,3.41,9.2,76,6000,31,38,63.9


# Filtros dinámicos

In [133]:
df_adult = pd.read_csv("./datasets/adult.csv")
df_adult

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capitalgain,capitalloss,hoursperweek,native-country,class
0,2,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,1,0,2,United-States,<=50K
1,3,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,0,United-States,<=50K
2,2,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,2,United-States,<=50K
3,3,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,2,United-States,<=50K
4,1,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,2,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,2,Private,215419,Bachelors,13,Divorced,Prof-specialty,Not-in-family,White,Female,0,0,2,United-States,<=50K
48838,4,,321403,HS-grad,9,Widowed,,Other-relative,Black,Male,0,0,2,United-States,<=50K
48839,2,Private,374983,Bachelors,13,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,3,United-States,<=50K
48840,2,Private,83891,Bachelors,13,Divorced,Adm-clerical,Own-child,Asian-Pac-Islander,Male,2,0,2,United-States,<=50K


In [100]:
df_adult[(df_adult["sex"] == "Female") & 
         (df_adult["race"] == "Black") & 
         (df_adult["native-country"] == "Cuba")]

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capitalgain,capitalloss,hoursperweek,native-country,class
4,1,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,2,Cuba,<=50K


## Operadores aritméticos

Este tipo de operadores permite ejecutar operaciones aritméticas entre operandos.

|Operador|Descripción|Ejemplo|
|-|-|-|
|+|Suma los operandos| var1 + var2|
|-|Resta los operandos| var1 - var2|
|*|Multiplica los operandos| var1*var2|
|/|Divide los operandos| var1/var2|
|%|Halla el módulo entre los operandos| var1%var2|
|**|Realiza cálculos de potencia entre los operandosrecho| var1**var2|
|//|Divide de forma entera  los operandos| var1//var2|

## Operadores de asignación 

Este tipo de operadores permite la asignación entre operandos y son básicamente variaciones del operador "="

<font face="Verdana">

|Operador|Descripción|Ejemplo|
|-|-|-|
|=|Asigna al operando izquierdo el valor del operando derecho| var = 5 + 4|
|+=|Suma al operando izquierdo el valor del operando derecho| var += 5|
|-=|Resta al operando izquierdo el valor del operando derecho| var -= 5|
|*=|Multiplica el operando izquierdo con el valor del operando derecho| var *= 5|
|/=|Divide el operando izquierdo con el valor del operando derecho| var /= 5|
|**=|Eleva al operando izquierdo al valor del operando derecho| var **= 5|
|//=|Divide en forma entera al operando izquierdo con el valor del operando derecho| c //= 5|
|%=|Calcula el módulo entre el operando izquierdo y el derecho operando derecho| var %= 5|

## Operadores relacionales 

Este tipo de operadores permite comparar entre operandos y su resultado siempre es una variable booleana. 

|Operador|Descripción|Ejemplo|
|-|-|-|
|==|Evalua si los valores de los operandos sean iguales| var1 == var2|
|!=|Evalua si los valores de los operandos sean diferentes| var1 != var2|
|>|Evalua si el valor de operando de la izquierda es mayor que el de la derecha| var1 > var2|
|<|Evalua si el valor de operando de la izquierda es menor que el de la derecha| var1 > var2|
|>=|Evalua si el valor de operando de la izquierda es mayor o igual que el de la derecha| var1 >= var2|
|<=|Evalua si el valor de operando de la izquierda es menor o igual que el de la derecha| var1 <= var2|

## Operadores bitáticos (bitwise)

Los operadores realizan operaciones bit a bit. Los operandos se consideran como dígitos binarios sobre los que se realizan operaciones bit a bit.

<font face="Verdana">

|Operador|Descripción|Ejemplo|
|-|-|-|
|&|Evalua bit a bit de los operandos y es 1 cuando ambos bits son 1| var1 & var2|
| \| |Evalua bit a bit de los operandos y es 0 cuando ambos bits son 0| var1 \| var2|
|^|Evalua bit a bit de los operandos y es 0 cuando ambos bits son 1 o  0| var1 ^ var2|
|~|Regresa el complemento de a uno de un número. También funciona como una negación| ~var1|


## Operadores lógicos 

Este tipo de operadores permite comparar sentencias entre operandos y su resultado siempre es una variable booleana. 

<font face="Verdana">

|Operador|Descripción|Ejemplo|
|-|-|-|
|and|Evalua los operandos y sólo es verdadero cuando ambos son verdaderos| var1 and var2|
|or|Evalua los operandos y sólo es falso cuando ambos son falsos| var1 or var2|
|not|Negación del operando| not var1|

## Operadores de identidad y pertenencia 

Este tipo de operadores permite comparar entre direcciones de operandos y su contenido, su resultado siempre es una variable booleana. 

|Operador|Descripción|Ejemplo|
|-|-|-|
|is|Evalua si las direcciones de los operandos son iguales| var1 is var2|
|is not|Evalua si las direcciones de los operandos son iguales| var1 is not var2|
|in|Evalua si un valor está contenido (o pertenece) en otro| var1 in var2|
|not in|Evalua si un valor no está contenido (o pertenece) en otro| var1 not in var2|

In [104]:
df = df_adult[(df_adult["sex"] == "Female") & 
              (df_adult["race"] == "White") & 
              ((df_adult["native-country"] == "Cuba") | (df_adult["native-country"] == "United-States"))]

df

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capitalgain,capitalloss,hoursperweek,native-country,class
5,2,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,2,United-States,<=50K
8,1,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,4,0,3,United-States,>50K
12,0,Private,122272,Bachelors,13,Never-married,Adm-clerical,Own-child,White,Female,0,0,1,United-States,<=50K
19,2,Self-emp-not-inc,292175,Masters,14,Divorced,Exec-managerial,Unmarried,White,Female,0,0,2,United-States,>50K
24,4,Private,109015,HS-grad,9,Divorced,Tech-support,Unmarried,White,Female,0,0,2,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48820,4,Private,344436,HS-grad,9,Widowed,Sales,Other-relative,White,Female,0,0,0,United-States,<=50K
48821,1,Private,430340,Some-college,10,Never-married,Sales,Not-in-family,White,Female,0,0,2,United-States,<=50K
48827,3,Private,224655,HS-grad,9,Separated,Priv-house-serv,Not-in-family,White,Female,0,0,1,United-States,<=50K
48834,0,Private,350977,HS-grad,9,Never-married,Other-service,Own-child,White,Female,0,0,2,United-States,<=50K


# Dataframes y slices

In [106]:
df[0:5]

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capitalgain,capitalloss,hoursperweek,native-country,class
5,2,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,2,United-States,<=50K
8,1,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,4,0,3,United-States,>50K
12,0,Private,122272,Bachelors,13,Never-married,Adm-clerical,Own-child,White,Female,0,0,1,United-States,<=50K
19,2,Self-emp-not-inc,292175,Masters,14,Divorced,Exec-managerial,Unmarried,White,Female,0,0,2,United-States,>50K
24,4,Private,109015,HS-grad,9,Divorced,Tech-support,Unmarried,White,Female,0,0,2,United-States,<=50K


In [105]:
df_adult[0:5]

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capitalgain,capitalloss,hoursperweek,native-country,class
0,2,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,1,0,2,United-States,<=50K
1,3,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,0,United-States,<=50K
2,2,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,2,United-States,<=50K
3,3,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,2,United-States,<=50K
4,1,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,2,Cuba,<=50K


In [107]:
df_adult.iloc[0:5, 0:4]

Unnamed: 0,age,workclass,fnlwgt,education
0,2,State-gov,77516,Bachelors
1,3,Self-emp-not-inc,83311,Bachelors
2,2,Private,215646,HS-grad
3,3,Private,234721,11th
4,1,Private,338409,Bachelors


In [109]:
df_adult.iloc[0:5, 6:7]

Unnamed: 0,occupation
0,Adm-clerical
1,Exec-managerial
2,Handlers-cleaners
3,Handlers-cleaners
4,Prof-specialty


In [112]:
df.iloc[0:1, :]

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capitalgain,capitalloss,hoursperweek,native-country,class
5,2,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,2,United-States,<=50K


In [122]:
df.iloc[0:1, 2:4]

Unnamed: 0,fnlwgt,education
5,284582,Masters


In [119]:
df.loc[23:24, "fnlwgt":"education"]

Unnamed: 0,fnlwgt,education
24,109015,HS-grad


In [116]:
df.head(10)

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capitalgain,capitalloss,hoursperweek,native-country,class
5,2,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,2,United-States,<=50K
8,1,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,4,0,3,United-States,>50K
12,0,Private,122272,Bachelors,13,Never-married,Adm-clerical,Own-child,White,Female,0,0,1,United-States,<=50K
19,2,Self-emp-not-inc,292175,Masters,14,Divorced,Exec-managerial,Unmarried,White,Female,0,0,2,United-States,>50K
24,4,Private,109015,HS-grad,9,Divorced,Tech-support,Unmarried,White,Female,0,0,2,United-States,<=50K
37,0,Private,544091,HS-grad,9,Married-AF-spouse,Adm-clerical,Wife,White,Female,0,0,1,United-States,<=50K
43,3,Private,94638,HS-grad,9,Separated,Adm-clerical,Unmarried,White,Female,0,0,2,United-States,<=50K
47,2,Private,128354,Masters,14,Divorced,Exec-managerial,Unmarried,White,Female,0,0,2,United-States,<=50K
66,1,Private,183175,Some-college,10,Divorced,Adm-clerical,Not-in-family,White,Female,0,0,2,United-States,<=50K
67,3,Private,169846,HS-grad,9,Married-civ-spouse,Adm-clerical,Wife,White,Female,0,0,2,United-States,>50K


# Método Apply()

In [None]:
# dataframe["columna"] = dataframe["columna"].apply(funcion)

In [134]:
def to_lower(word):
    
    if type(word) == str:
        word = word.lower()
        return word
    else:
        return word    

In [135]:
df_adult["workclass"] = df_adult["workclass"].apply(to_lower)
df_adult.head(5)

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capitalgain,capitalloss,hoursperweek,native-country,class
0,2,state-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,1,0,2,United-States,<=50K
1,3,self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,0,United-States,<=50K
2,2,private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,2,United-States,<=50K
3,3,private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,2,United-States,<=50K
4,1,private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,2,Cuba,<=50K


In [136]:
df_adult["education-num"] = df_adult["education-num"].apply(to_lower)

## Funciones Lambda

In [140]:
df_adult["education"] = df_adult["education"].apply(lambda x: x.lower())

In [159]:
def replace_char(word, caracter = str, replace_ = str):    
    word = word.replace(caracter, replace_)    
    return word

In [161]:
df_adult["marital-status"] = df_adult["marital-status"].apply(replace_char(caracter = "-", replace_ = "_"))
df_adult["marital-status"].unique()

TypeError: replace_char() missing 1 required positional argument: 'word'

In [158]:
df_adult["occupation"] = df_adult["occupation"].apply(lambda x: x.replace("-", "_") if type(x) == str else)
df_adult["occupation"].unique()

array(['Adm_clerical', 'Exec_managerial', 'Handlers_cleaners',
       'Prof_specialty', 'Other_service', 'Sales', 'Craft_repair',
       'Transport_moving', 'Farming_fishing', 'Machine_op_inspct',
       'Tech_support', nan, 'Protective_serv', 'Armed_Forces',
       'Priv_house_serv'], dtype=object)

In [None]:
string_name = "manuel alejandro"

lista_2 = ""
for word in lista:
    lista_2 = lista_2 + " " + word.capitalize()
    lista_2 = lista_2.lstrip().rstrip()
lista_2

In [165]:
df_adult["marital-status"] = df_adult["marital-status"].apply(lambda x: replace_char(word = x, caracter = "N", replace_ = "n"))
df_adult["marital-status"].unique()

array(['never_married', 'Married_civ_spouse', 'Divorced',
       'Married_spouse_absent', 'Separated', 'Married_AF_spouse',
       'Widowed'], dtype=object)

## leer un archivo Json cualquiera

In [167]:
import json

In [169]:
path_ = r"C:\Users\David.Piedrahita\OneDrive - Idata\Datos\hubtek_entidades\json_test\btxbol_NCS20029906.json"
with open(path_, encoding = "utf8") as file:
    data = json.load(file)    
data

[{'page_number': 1,
  'text_angle': 0.0,
  'width': 8.5,
  'height': 11.0,
  'unit': 'inch',
  'tables': [{'page_number': 1,
    'row_count': 4,
    'column_count': 2,
    'cells': [{'text': 'PO Number',
      'row_index': 0,
      'column_index': 0,
      'row_span': 1,
      'column_span': 1,
      'confidence': 1.0,
      'is_header': True,
      'is_footer': False,
      'page_number': 1,
      'bounding_box': [{'x': 0.2492, 'y': 3.1326},
       {'x': 2.2473, 'y': 3.1326},
       {'x': 2.2473, 'y': 3.3022},
       {'x': 0.2492, 'y': 3.2979}],
      'field_elements': [{'text': 'PO',
        'bounding_box': [{'x': 0.3155, 'y': 3.1869},
         {'x': 0.4357, 'y': 3.1869},
         {'x': 0.4357, 'y': 3.2604},
         {'x': 0.3155, 'y': 3.2604}],
        'confidence': 1.0,
        'page_number': 1,
        'kind': 'word'},
       {'text': 'Number',
        'bounding_box': [{'x': 0.4848, 'y': 3.1851},
         {'x': 0.8642, 'y': 3.1851},
         {'x': 0.8642, 'y': 3.2604},
         {'

In [173]:
df_json = pd.read_json(path_)

In [183]:
df_excel = pd.read_excel(r"C:\Users\David.Piedrahita\OneDrive - Idata\Datos\grupo_02_DS_NB\datasets\Tasa_de_Cambio_Representativa_del_Mercado-_TRM.xlsx", 
                         sheet_name = "Julio", 
                         header = 1)
df_excel

Unnamed: 0,VALOR,UNIDAD,VIGENCIADESDE,VIGENCIAHASTA
0,3932.72,COP,2020-05-01,2020-05-04
1,3990.1,COP,2020-05-05,2020-05-05
2,3926.07,COP,2020-05-06,2020-05-06
3,3961.66,COP,2020-05-07,2020-05-07
4,3924.54,COP,2020-05-08,2020-05-08
5,3882.27,COP,2020-05-09,2020-05-11


In [187]:
pd.read_csv("./datasets/Libro1.csv", sep = ";", decimal = ".")

Unnamed: 0,VALOR,UNIDAD,VIGENCIADESDE,VIGENCIAHASTA
0,"3.932,72",COP,01/05/20,04/05/20
1,"3.990,10",COP,05/05/20,05/05/20
2,"3.926,07",COP,06/05/20,06/05/20
3,"3.961,66",COP,07/05/20,07/05/20
4,"3.924,54",COP,08/05/20,08/05/20
5,"3.882,27",COP,09/05/20,11/05/20
