#"Actividad 1 Semana 3"

**Ciencia y analítica de datos**

**Nombre:** Humberto Lozano Cedillo
**Matrícula:** A01363184

#**Parte 1: Fundamentos de base de datos**



1. **Fundamentos de bases de datos y ciencias de datos**
> Las bases de datos simplemente es el espacio digital en el cual se almacena información, en especial datos de forma estructurada. Mientras tanto, la ciencia de datos se especializa en estudiar los métodos para extraer información, ya sean, matemáticos, estadísticos y probabilísticos. La ciencia de datos es importante, ya que, el uso de estos métodos les permite a las empresas obtener información que es importante a la hora de tomar decisiones
2. **Fundamentos de almacenes de datos (Data Warehouse) para ciencia de datos**
> Cuando hablamos de almacenes de datos estamos hablando de bases de datos que almacenan enormes cantidades de datos provenientes de diferentes fuentes.
Los retos que enfrentan los almacenes de datos son principalmente que estos pueden venir con diferentes formatos, que no son fáciles de relacionar unos con otros, por lo que, estos tienen que ser transformados y normalizados, de tal forma, que nos puedan ser útiles para cualquier propósito que los vayamos a utilizar. Adicionalmente, le permite a las empresas construir un record histórico que puede ser útil para las ideas de negocios. Un ejemplo de negocios que se pueden ayudar de este recurso, son las tiendas de e-commerce, en donde las compañías manejan mucha retroalimentación de las cosas que la gente adquiere en el almacen de datos.

#**Parte 2: Parte 2: Selección y limpieza de los Datos en Python**

**Importamos las librerías a usar**

In [1]:
import pandas as pd
import numpy as np

**Creamos el dictionario que contiene las listas de datos a usar**

In [4]:
x = {'Company': ['Ford', 'Ford', 'VW', 'BMW', 'Cooper', 'Cooper'], 
     'Stars' : [1, 2, np.nan, 2, 1, 1], 
     'Weight' : [2, 4, 2, 2, 3, None], 
     'Origin' : ['China', 'Mexico', 'Mexico', None, 'China', np.nan], 
     'Length': [40, 50, 30, np.nan, 45, pd.NaT]
}

Obtenemos nuestro data frame a partir de las listas (x) con el método pd.DataFrame

In [5]:
df  = pd.DataFrame(data = x)
df

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40
1,Ford,2.0,4.0,Mexico,50
2,VW,,2.0,Mexico,30
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45
5,Cooper,1.0,,,NaT


**Guardamos en un archivo CSV (coma separated value)**

El archivo se guarda automáticamente en archivos de colab

In [6]:
df.to_csv('data.csv')

In [7]:
df = pd.read_csv('/content/data.csv', index_col=0)
df

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Para verificar, ¿falta algún dato?

In [8]:
# Nos devuelve un valor booleano
df.isnull().values.any() 

True

In [9]:
# Nos indica si los valores de las columnas tienen algun valor faltante NaN
df.isnull().any()

Company    False
Stars       True
Weight      True
Origin      True
Length      True
dtype: bool

Alternativamente podemos usar los siguientes métodos

In [10]:
df.isna().values.any()

True

In [11]:
df.isna().any()

Company    False
Stars       True
Weight      True
Origin      True
Length      True
dtype: bool

#**Solución 1:**

Descartamos las observaciones con valores faltantes

In [12]:
# Suelta las filas donde falta al menos un elemento
df.dropna(inplace = True)

In [13]:
df.isna().values.any()

False

Nuestro nuevo data frame ya no contiene los renglones con valores faltantes

El problema con este método es que podemos perder información que puede ser importante o perder demasiada información como sucede en este ejercicio, en donde se piede el 50% de la información

In [14]:
df

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
4,Cooper,1.0,3.0,China,45.0


In [15]:
df = pd.read_csv('/content/data.csv', index_col=0)
df.isna().any()

Company    False
Stars       True
Weight      True
Origin      True
Length      True
dtype: bool

Generamos una copia de nuestra data frame original. Con esto podemos modificar la nueva copia del data frame sin alterar la original

In [16]:
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Nos deshacemos de las ***columnas*** en donde al menos falta un elemento

In [17]:
ndf.dropna(axis = 1, inplace = True) # axis 1 is columns / axis 0 is rows. 
ndf

Unnamed: 0,Company
0,Ford
1,Ford
2,VW
3,BMW
4,Cooper
5,Cooper


Generamos otra copia de nuestro data frame

In [18]:
nrdf = df.copy()
nrdf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Nos deshacemos de las ***filas*** en donde al menos hace falta un elemento

In [19]:
nrdf.dropna(how='all', inplace = True)
nrdf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


**Alternativamente podemos usar Threshold**

Mantiene las ***filas*** con al menos valores que **NO SEAN** NaN

Nuevamente hacemos una copia del data frame

In [20]:
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Visiblemente se observa que hay menos filas con valores de NaN (únicamente las filas 3 y 5 son tiradas, ya que, contenían menos de dos valores diferentes a NaN)

In [21]:
ndf.dropna(thresh=4, inplace = True) # In a row, it needs at least 4 nan values is needed, to maintain in df
ndf # in case of column  add   axis=1

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
4,Cooper,1.0,3.0,China,45.0


Volvemos a hacer una copia del data frame, pero esta vez vamos a deshacernos de las ***columnas*** que contengan los valores faltantes

In [22]:
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


En esta instrucción lo que estamos diciendo es que si no hay cinco valores difirentes a NaN, nos deshacemos de esa columna

Como resultado las columnas de Origin y Length son deshechadas

In [23]:
ndf.dropna(thresh = 5,  #if there is not 5 nan values, the column will be eliminated 
           axis = 1, 
           inplace = True
           ) 
ndf

Unnamed: 0,Company,Stars,Weight
0,Ford,1.0,2.0
1,Ford,2.0,4.0
2,VW,,2.0
3,BMW,2.0,2.0
4,Cooper,1.0,3.0
5,Cooper,1.0,


#Solución 2

En este método se utiliza el promedio para ocupar los valores en Nan

Este método puede ayudar a tener más datos en cuenta, pero se debe de considerar que puede haber un error por el promedio, especialmente en bases de datos muy grandes o con requerimientos muy específicos

Nuevamente generamos una copia de nuestro data frame

In [24]:
ndf = df.copy()

Sacaremos el promedio de los valores de la columna Weight

In [25]:
wm = ndf.Weight.mean()
wm

2.6

Con el dato obtenido del promedio, lo colocaremos en el espacio faltante del NaN

*Observar el renglón 5 de la columna de Weight*

In [28]:
ndf['Weight'].fillna(value = wm, 
                    inplace = True)
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,2.6,,


Ahora haremos los mismo para la columna de Length

In [29]:
ndf['Length'].fillna(value = ndf.Length.median(), 
                    inplace = True)
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,42.5
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,2.6,,42.5


Para la columna de Origin seleccionamos un valor arbitrario de la lista de la columna

In [30]:
mm  = ndf.Origin.mode()
mm

0     China
1    Mexico
dtype: object

In [31]:
mm[1]

'Mexico'

Con el valor selecionado de la lista (1) donde se representa al caracter Mexico, se sustituye los valores en NaN

In [32]:
ndf['Origin'].fillna(value = mm[1], #'NoPais', 
                    inplace = True)
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,Mexico,42.5
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,2.6,Mexico,42.5


Revisamos si existen valores que aún sigan en NaN

In [33]:
ndf.isnull().values.any()

True

In [34]:
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Nos deshacemos de las filas con valores en NaN dentro de las columnas de Origin y Length

In [35]:
ndf.dropna(subset=['Origin', 'Length'], inplace = True)
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
4,Cooper,1.0,3.0,China,45.0


In [36]:
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Seleccionamos el elemento * dentro de nuestra lista --> China

In [37]:
ndf.Origin.mode()[0]

'China'

Reemplazamos los valores de NaN con los elementos selecionados ("China"), adicionalmente sustituimos los valores en NaN com la media en la columna de Length

In [38]:
favs = {'Origin': ndf.Origin.mode()[0], 'Length': ndf['Length'].mean()}

In [39]:
ndf.Origin.fillna(ndf.Origin.mode()[0], inplace=True)
ndf.Length.fillna(ndf.Length.mean(), inplace=True)
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,China,41.25
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,China,41.25


¿Cuándo es una mediana mejor en comparación con la media?

In [40]:
data = {'Salary':  [28, 30, 30, 35, 37, 40, 400]
}
adf = pd.DataFrame(data)
adf

Unnamed: 0,Salary
0,28
1,30
2,30
3,35
4,37
5,40
6,400


Este comando nos permite directamente obtener la cuenta del número de elementos dentro de nuestra data frame, así como, la media, la desviación estadar, el valor mínimo, valor máximo y los percentiles

In [58]:
adf.describe()


Unnamed: 0,Salary
count,7.0
mean,85.714286
std,138.653903
min,28.0
25%,30.0
50%,35.0
75%,38.5
max,400.0


Asignamos una nueva data frame a df y la copiamos en ndf

In [42]:
df = pd.read_csv('/content/data.csv', index_col=0)
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Este comando nos permite reordenar las columnas, en este caso se ordenan de forma alfabética

In [43]:
ndf.columns.sort_values()

Index(['Company', 'Length', 'Origin', 'Stars', 'Weight'], dtype='object')

In [44]:
ndf.loc[2:5 , 'Company':'Origin']  # rows 2 to 5, columns  'Company' to 'Origin'

Unnamed: 0,Company,Stars,Weight,Origin
2,VW,,2.0,Mexico
3,BMW,2.0,2.0,
4,Cooper,1.0,3.0,China
5,Cooper,1.0,,


Visualizamos únicamente las columnas seleccionadas dentro de los valores seleccionados

In [45]:
favs = ['Stars', 'Weight', 'Origin']

In [46]:
ndf.loc[2:5 , favs]

Unnamed: 0,Stars,Weight,Origin
2,,2.0,Mexico
3,2.0,2.0,
4,1.0,3.0,China
5,1.0,,


In [47]:
ndf.iloc[2:5, [1,2, 3]] # iloc  - so, indices

Unnamed: 0,Stars,Weight,Origin
2,,2.0,Mexico
3,2.0,2.0,
4,1.0,3.0,China


In [48]:
ndf.columns

Index(['Company', 'Stars', 'Weight', 'Origin', 'Length'], dtype='object')

In [49]:
for i in ndf.columns:
  print(i)

Company
Stars
Weight
Origin
Length


Visualizamos la información hasta el elemento 4

In [50]:
ndf.head(4)

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,


In [51]:
ndf.Company.unique()

array(['Ford', 'VW', 'BMW', 'Cooper'], dtype=object)

Agrupamos los elementos del data frame de acuerdo a lo seleccionado (Company, Origin)

In [52]:
df.groupby(['Company', 'Origin']).size()

Company  Origin
Cooper   China     1
Ford     China     1
         Mexico    1
VW       Mexico    1
dtype: int64

Contamos el número de veces que obtenemos los elementos seleccionados dentro de las columnas seleccionadas

In [53]:
df[['Company', 'Origin']].value_counts()

Company  Origin
Cooper   China     1
Ford     China     1
         Mexico    1
VW       Mexico    1
dtype: int64

In [54]:
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


In [55]:
ndf2 = ndf.drop(['Stars', 'Origin',], axis = 1)
ndf2

Unnamed: 0,Company,Weight,Length
0,Ford,2.0,40.0
1,Ford,4.0,50.0
2,VW,2.0,30.0
3,BMW,2.0,
4,Cooper,3.0,45.0
5,Cooper,,


Renombramos las columnas seleccionadas de acuerdo a nuestras necesidades o preferencias.
En el diccionario se coloca (el valor actual: el valor con el que lo quieres sustituir)

In [56]:
ndf2.rename(columns = {'Company' : 'Empresa', 'Weight': 'Peso'}, inplace = True)
ndf2

Unnamed: 0,Empresa,Peso,Length
0,Ford,2.0,40.0
1,Ford,4.0,50.0
2,VW,2.0,30.0
3,BMW,2.0,
4,Cooper,3.0,45.0
5,Cooper,,


# **Parte 3: Preparación de los datos**


1. ¿Qué datos considero mas importantes? ¿Por qué?
>La relevancia de los datos depende las preguntas que deseamos contestar. Para este caso no considero que haya datos más importantes que otros, porque no estamos contestando preguntas específicas. Por ejemplo, ¿Cuál es el país que más exporta dentro de nuestro data set? Para ese caso el dato más importante podría ser Origin, pero si se desea conocer el peso y longitud por un tema que se relacione al rendimiento del vehículo, el origen podría no ser tan relevante.
Para este ejercicio lo que se me hace más relevante es la dinámica de uso que le podemos dar a nuestra información por medio del uso de la librería de pandas, la facilidad que nos ofrecer para generar copias de un data frame para manipularlo de acuerdo a nuestras necesidades.
2. ¿Se eliminaron o reemplazaron datos nulos? ¿Qué se hizo y por qué?
>Si, se hicieron ambas cosas. Generalmente se hace esto para evitar errores en los cálculos que se requieran hacer. Más acertado me parece que sacar la media puede ser una mejor opción en varios de los casos, ya que, eliminar las filas y/o columnas que no poseen información nos podría llevar a generar un mayor error por omisión. 
3. ¿Es necesario limpiar los datos para el análisis? Sí / No / ¿Por qué?
>Por supuesto que es importante el limpiar los datos previos al análisis, de lo contrario podemos tener un mayor error al llevarlo a cabo. Limpiar los datos nos ayuda a mejorar nuestra productividad mediante un set de datos de mayor calidad con el que se puede trabajar de forma más sencilla, nos ayuda a remover errores dentro de nuestros data frames. También nos permite monitorear errores de manera más simple y por consiguiente rápida. Todo esto hace más eficiente y rápida la toma de decisiones.
4. ¿Existen problemas de formato que deban solucionar antes del proceso de modelado? Sí / No / Por qué.
>Si, anteriormente cuando vimos el tema de data warehouse (almacén de datos), pudimos observar que en la vida real, en muchas de las ocasiones estaremos trabajando con una gran diversidad de bases de datos que en muchas ocasiones vendrán de diferentes fuentes, lo que lleva a que todas y cada una de estas fuentes manejen su propio formato, lo que nos obliga a tener que tomar en cuenta que antes de empezar a trabajar con los datos, lo primero que tenemos que hacer es darles un formato que se adecue a la tarea que estamos realizando. De lo contrario, tendremos que lidiar con información que no cuadre, por simple ejemplo, que una base de datos que en su formato maneje medidas inglesas y nuestro trabajo nos exija llevar otros bases de datos en medidas internacionales. también ocurre cuando las bases de datos no manejan las mismas escalas.
5. ¿Qué ajustes se realizaron en el proceso de limpieza de datos (agregar, integrar, eliminar, modificar registros (filas), cambiar atributos (columnas)?
>Para este ejercicio se realizaron todos los procesos de limpieza de datos, principalmente para familiarizarnos con el uso del lenguaje de programación, ya que, en particular para este ejercicio no hubo un fin en específico al que se quisiera llegar. De cualquier forma, resulta muy útil realizar estos ejercicios, ya que, nuestro dominio del lenguaje de programación puede mejorar de forma significativa, así como, nuestro entendimiento al momento de leer el programa o problema que se nos presenta.