# Inspección de un archivo de datos

## Importado un archivo de datos, es importante ver lo que a nivel general este posee.

## Podemos saber sobre:

###  La estructura del archivo
###  Las primeras *k* filas o las últilas *r* filas
###  La dimensión [k,n]
###  El número de filas
###  El numero de columnas
###  Las variables  

## Pero también nos interesará hacer una inspección más detallada como saber el tipo de archivo, el tipo de las varibles, verlas de la columna tal a tal, y solo ciertas variables, o una única variables y columna.

### El tipo de archivo en el data frame
### El tipo de archivo para cada variable
### Unas estadísticas generales
### Info en Filas
### Info en Columnas : por nombre y por ubicación
### Lectura de casillas 

## Será a groso modo, lo que nos interesará saber un archivo de datos, antes de poder llevar a cabo cualquier tipo de manipulación.

## Importando un archivo de datos

# 0. Importación de datos

In [2]:
import os
cwd = os.getcwd()
cwd
# Print the current working directory
print("Current working directory: {0}".format(cwd))


path = 'C:\\Users\\oscar\\Desktop\\GitHub\\Python\\Jupyter Notebook\\Data Manipulation\\Inspección de un archivo de datos'
# Change the current working directory
os.chdir(path)
# Let's check the new directory 
print("Current working directory: {0}".format(os.getcwd()))

import pandas as pd

employee = pd.read_excel('testData.xlsx', sheet_name= 'employee')

Current working directory: c:\Users\oscar\Desktop\GitHub\Python\Jupyter Notebook\Data Manipulation\Inspección de un archivo de datos
Current working directory: c:\Users\oscar\Desktop\GitHub\Python\Jupyter Notebook\Data Manipulation\Inspección de un archivo de datos


# I. Inspección General

## A. La estructura del archivo de datos: .info() 

In [153]:
# Opción 1

employee.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37 entries, 0 to 36
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   employee_id            37 non-null     int64 
 1   transport_expense      37 non-null     int64 
 2   distance               37 non-null     int64 
 3   age                    37 non-null     int64 
 4   education              37 non-null     int64 
 5   sons                   37 non-null     int64 
 6   pet                    37 non-null     int64 
 7   gender                 37 non-null     object
 8   disciplinary_faults    37 non-null     int64 
 9   transportation_method  37 non-null     object
dtypes: int64(8), object(2)
memory usage: 3.0+ KB


In [154]:
# Opción 2

employee.dtypes

employee_id               int64
transport_expense         int64
distance                  int64
age                       int64
education                 int64
sons                      int64
pet                       int64
gender                   object
disciplinary_faults       int64
transportation_method    object
dtype: object

In [155]:
# Opción 3

employee.axes

[RangeIndex(start=0, stop=37, step=1),
 Index(['employee_id', 'transport_expense', 'distance', 'age', 'education',
        'sons', 'pet', 'gender', 'disciplinary_faults',
        'transportation_method'],
       dtype='object')]

## B. Las primeras *k* filas o las últilas *r* filas

In [156]:
# Primeras k filas 

employee.head()

Unnamed: 0,employee_id,transport_expense,distance,age,education,sons,pet,gender,disciplinary_faults,transportation_method
0,1,235,11,37,3,1,1,F,3,public_transportation
1,2,235,29,48,1,1,5,M,4,public_transportation
2,3,179,51,38,1,0,0,M,5,bicycle
3,4,118,14,40,1,1,8,F,0,public_transportation
4,5,235,20,43,1,1,0,M,1,bicycle


In [157]:
# Últimas k columnas 

employee.tail()

Unnamed: 0,employee_id,transport_expense,distance,age,education,sons,pet,gender,disciplinary_faults,transportation_method
32,32,289,48,49,1,0,2,F,0,car
33,33,248,25,47,1,2,1,F,3,bike
34,34,118,10,37,1,0,0,F,5,bike
35,35,179,45,53,1,1,1,F,4,public_transportation
36,36,118,13,50,1,1,0,F,5,bicycle


## C. La dimensión [k,n] del dataframe

In [158]:
employee.shape

(37, 10)

## D. El número de filas

In [159]:
# Opción 1 ---> ver el Stop

employee.index

RangeIndex(start=0, stop=37, step=1)

In [160]:
# Opción 2  --> función len() 

len(employee)

37

In [161]:
# Opción 3 --> .shape[0]

employee.shape[0]

37

In [12]:
# Opción 4

# employee.count()

employee.count()[0]



employee_id              37
transport_expense        37
distance                 37
age                      37
education                37
sons                     37
pet                      37
gender                   37
disciplinary_faults      37
transportation_method    37
dtype: int64

## E. EL número de columnas

In [163]:
# Opción 1

len(employee.columns)

10

In [164]:
# Opción 2

employee.shape[1]

10

## F. Las variables 

In [165]:
# Opción 1

employee.columns

Index(['employee_id', 'transport_expense', 'distance', 'age', 'education',
       'sons', 'pet', 'gender', 'disciplinary_faults',
       'transportation_method'],
      dtype='object')

In [166]:
# Opción 2

employee.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37 entries, 0 to 36
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   employee_id            37 non-null     int64 
 1   transport_expense      37 non-null     int64 
 2   distance               37 non-null     int64 
 3   age                    37 non-null     int64 
 4   education              37 non-null     int64 
 5   sons                   37 non-null     int64 
 6   pet                    37 non-null     int64 
 7   gender                 37 non-null     object
 8   disciplinary_faults    37 non-null     int64 
 9   transportation_method  37 non-null     object
dtypes: int64(8), object(2)
memory usage: 3.0+ KB


In [167]:
# Opción 3

employee.dtypes

employee_id               int64
transport_expense         int64
distance                  int64
age                       int64
education                 int64
sons                      int64
pet                       int64
gender                   object
disciplinary_faults       int64
transportation_method    object
dtype: object

# II. Inspección específica

### El tipo de archivo en el data frame
### El tipo de archivo para cada variable
### Unas estadísticas generales
### Info en Filas
### Info en Columnas : por nombre y por ubicación
### Lectura de casillas 

### A. El tipo de archivo en el data frame

In [168]:
# Utilizar la opción type() ---> es del entorno general de Python, 

type(employee)

pandas.core.frame.DataFrame

### B. El tipo de archivo para cada variable

In [169]:
# Opción 1

employee.dtypes

employee_id               int64
transport_expense         int64
distance                  int64
age                       int64
education                 int64
sons                      int64
pet                       int64
gender                   object
disciplinary_faults       int64
transportation_method    object
dtype: object

In [170]:
# Opción 2

employee.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37 entries, 0 to 36
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   employee_id            37 non-null     int64 
 1   transport_expense      37 non-null     int64 
 2   distance               37 non-null     int64 
 3   age                    37 non-null     int64 
 4   education              37 non-null     int64 
 5   sons                   37 non-null     int64 
 6   pet                    37 non-null     int64 
 7   gender                 37 non-null     object
 8   disciplinary_faults    37 non-null     int64 
 9   transportation_method  37 non-null     object
dtypes: int64(8), object(2)
memory usage: 3.0+ KB


In [171]:
# Opción 3

employee.age    # al final aparece que es de tipo int64

0     37
1     48
2     38
3     40
4     43
5     33
6     39
7     39
8     58
9     28
10    33
11    31
12    31
13    34
14    40
15    46
16    40
17    28
18    32
19    36
20    33
21    30
22    36
23    41
24    32
25    43
26    27
27    28
28    28
29    41
30    29
31    50
32    49
33    47
34    37
35    53
36    50
Name: age, dtype: int64

In [172]:
# Opción 4

employee['age'].dtypes

dtype('int64')

### C. Unas estadísticas generales

In [173]:
# Opción 1, mediante la función .describre()

employee.describe().round()   # use round

Unnamed: 0,employee_id,transport_expense,distance,age,education,sons,pet,disciplinary_faults
count,37.0,37.0,37.0,37.0,37.0,37.0,37.0,37.0
mean,19.0,237.0,27.0,38.0,1.0,1.0,1.0,2.0
std,11.0,73.0,14.0,8.0,1.0,1.0,2.0,2.0
min,1.0,118.0,5.0,27.0,1.0,0.0,0.0,0.0
25%,10.0,179.0,15.0,32.0,1.0,0.0,0.0,1.0
50%,19.0,235.0,26.0,37.0,1.0,1.0,0.0,2.0
75%,28.0,289.0,36.0,43.0,1.0,2.0,2.0,4.0
max,36.0,388.0,52.0,58.0,4.0,4.0,8.0,5.0


In [174]:
# Opción 2 ---> include = "all"

In [175]:
employee.describe(include='all').round().transpose()

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
employee_id,37.0,,,,19.0,11.0,1.0,10.0,19.0,28.0,36.0
transport_expense,37.0,,,,237.0,73.0,118.0,179.0,235.0,289.0,388.0
distance,37.0,,,,27.0,14.0,5.0,15.0,26.0,36.0,52.0
age,37.0,,,,38.0,8.0,27.0,32.0,37.0,43.0,58.0
education,37.0,,,,1.0,1.0,1.0,1.0,1.0,1.0,4.0
sons,37.0,,,,1.0,1.0,0.0,0.0,1.0,2.0,4.0
pet,37.0,,,,1.0,2.0,0.0,0.0,0.0,2.0,8.0
gender,37.0,2.0,F,22.0,,,,,,,
disciplinary_faults,37.0,,,,2.0,2.0,0.0,1.0,2.0,4.0,5.0
transportation_method,37.0,5.0,public_transportation,19.0,,,,,,,


### D. Info en Filas

In [176]:
# Opción 1, la función  head()

employee.head(10)

Unnamed: 0,employee_id,transport_expense,distance,age,education,sons,pet,gender,disciplinary_faults,transportation_method
0,1,235,11,37,3,1,1,F,3,public_transportation
1,2,235,29,48,1,1,5,M,4,public_transportation
2,3,179,51,38,1,0,0,M,5,bicycle
3,4,118,14,40,1,1,8,F,0,public_transportation
4,5,235,20,43,1,1,0,M,1,bicycle
5,6,189,29,33,1,2,2,F,1,public_transportation
6,7,279,5,39,1,2,0,F,1,public_transportation
7,8,231,35,39,1,2,2,M,3,public_transportation
8,9,228,14,58,1,2,1,M,3,public_transportation
9,10,361,52,28,1,1,4,M,0,bicycle


In [177]:
# Opción 2, la función tail()

employee.tail(8)

Unnamed: 0,employee_id,transport_expense,distance,age,education,sons,pet,gender,disciplinary_faults,transportation_method
29,29,225,15,41,4,2,2,M,1,bike
30,30,157,27,29,1,0,0,F,3,walking
31,31,388,15,50,1,0,0,M,2,public_transportation
32,32,289,48,49,1,0,2,F,0,car
33,33,248,25,47,1,2,1,F,3,bike
34,34,118,10,37,1,0,0,F,5,bike
35,35,179,45,53,1,1,1,F,4,public_transportation
36,36,118,13,50,1,1,0,F,5,bicycle


In [178]:
# Opción 3, la función .iloc[]

# employee.iloc[3]  ----> puede ser una, varias con los ":"
employee.iloc[3:6]

Unnamed: 0,employee_id,transport_expense,distance,age,education,sons,pet,gender,disciplinary_faults,transportation_method
3,4,118,14,40,1,1,8,F,0,public_transportation
4,5,235,20,43,1,1,0,M,1,bicycle
5,6,189,29,33,1,2,2,F,1,public_transportation


### E. Info de columnas : por nombre y por ubicación

In [179]:
# Opción 1  

employee.age

0     37
1     48
2     38
3     40
4     43
5     33
6     39
7     39
8     58
9     28
10    33
11    31
12    31
13    34
14    40
15    46
16    40
17    28
18    32
19    36
20    33
21    30
22    36
23    41
24    32
25    43
26    27
27    28
28    28
29    41
30    29
31    50
32    49
33    47
34    37
35    53
36    50
Name: age, dtype: int64

In [180]:
# Opción 2  .loc por nombre
 
employee['age']

0     37
1     48
2     38
3     40
4     43
5     33
6     39
7     39
8     58
9     28
10    33
11    31
12    31
13    34
14    40
15    46
16    40
17    28
18    32
19    36
20    33
21    30
22    36
23    41
24    32
25    43
26    27
27    28
28    28
29    41
30    29
31    50
32    49
33    47
34    37
35    53
36    50
Name: age, dtype: int64

In [182]:
# Opción 3  .loc por nombre

employee.loc[:, ["distance","pet","education"]]

Unnamed: 0,distance,pet,education
0,11,1,3
1,29,5,1
2,51,0,1
3,14,8,1
4,20,0,1
5,29,2,1
6,5,0,1
7,35,2,1
8,14,1,1
9,52,4,1


In [184]:
# Opción 4  ----> .loc por nombre

employee.loc[:, 'distance':'gender']

Unnamed: 0,distance,age,education,sons,pet,gender
0,11,37,3,1,1,F
1,29,48,1,1,5,M
2,51,38,1,0,0,M
3,14,40,1,1,8,F
4,20,43,1,1,0,M
5,29,33,1,2,2,F
6,5,39,1,2,0,F
7,35,39,1,2,2,M
8,14,58,1,2,1,M
9,52,28,1,1,4,M


In [None]:
# Opción 5  -----> el uso del .iloc, para el caso de los indices  



### F. Lectura de casillas

In [185]:
# Opción 1 ----> el  .loc 

employee.loc[3,'age']

40

In [187]:
# Opción 2 ---> el .iloc

employee.iloc[3,3]

40