# Proyecto integrador del módulo Analista de Datos

### Docentes:
- Marcos Ugarte
- Nahuel Pratta

### Alumnos integrantes:
- Erick López
- Christian Nüesch
- Débora Zurita


<br>

---

<br>

## Descripción del proyecto

El proyecto consiste en el análisis a través de diferentes herramientas profesionales, de los datos recolectados a través de un peinado web (o web scrapping) con la información de varias características de automóviles ordenadas en doce diferentes columnas.

Este procesamiento y limpieza de los datos para realizar un posterior análisis se realizó con la finalidad de articular lo visto en los diferentes espacios curriculares de la carrera Ciencia de Datos e Inteligencia Artificial. Estos espacios curriculares son "Estadística y Exploración de Datos", "Procesamiento de Datos" y "Ciencia de Datos".

<br>

**Los objetivos generales del proyecto** son desarrollar la capacidad de organizar y planificar eficazmente, aplicando loss conocimientos para identificar problemas relevantes en el contexto profesional. Se deberá comunicar los hallazgos de manera clara, tanto de forma oral como escrita. Asimismo se busca el razonamiento crítico y desarrollar actitudes importantes como la precisión, la revisión crítica, la tolerancia y el compromiso ético con la igualdad de oportunidades, sin discriminación por sexo, raza o religión, y con atención a la diversidad. Por último, se busca mejorar la capacidad para tomar decisiones y trabajar en equipo, colaborando en entornos multidisciplinares para alcanzar los objetivos propuestos.

<br>

**Los objetivos específicos del proyecto** son la capacidad de limpiar y transformar los datos crudos para poder eliminar errores, valores atípicos, valores ausentes y demás inconsistencias; para luego aplicar análisis gráficos y descriptivos, y relacionar diferentes variables.

<br>

---

<br>

Para empezar a trabajar con el dataset lo primero que hacemos es importar las librerías de Python que vamos a utilizar.



In [None]:
import numpy as np
import pandas as pd

<br>
<br>

Luego leemos los datos desde el archivo que los contiene, en este caso un archivo de valores separados por comas (csv):


```
autos_argentina.csv
```



In [None]:
data = pd.read_csv('autos_argentina.csv')

# Código para el caso de que se presenten incompatibilidades con la codificación
# del archivo
#data = pd.read_csv('autos_argentina.csv', delimiter=',', encoding='utf-8')

<br>

## Análisis descriptivo del dataset

Lo siguiente que vamos a realizar es imprimir los primeros diez registros del dataset para poder hacernos una idea de qué se trata:

In [None]:
print(data.head(10))

<br>
<br>

También podemos imprimir las últimas filas del dataset (tanto para ```head``` como para ```tail``` por defecto siempre se imprimen cinco filas):

In [None]:
data.tail()

<br>
<br>

Podemos imprimir todo el dataset, aunque *se debe tener cuidado al realizar esta operación* si el dataset es muy grande, ya que todo deberá ser cargado en memoria.

In [None]:
print(data.to_string())

<br>
<br>

También vamos a generar una descripción general del dataset:

In [None]:
data.describe()

<br>
<br>

Con el método ```info()``` podemos ver el número de filas y columnas, el tipo de datos de cada columna, el número de valores no nulos de cada columna y el uso de memoria del dataset:

In [None]:
data.info()

<br>
<br>

Se pueden visualizar diferentes características del dataset:

In [None]:
# Los nombres de las columnas:
data.columns

Index(['Precio', 'Marca', 'Modelo', 'Año', 'Color', 'Combustible', 'Puertas',
       'Caja', 'Motor', 'Carrocería', 'Kilómetros', 'Moneda'],
      dtype='object')

<br>

In [None]:
# La cantidad total de celdas o elementos del dataset:
data.size

<br>

In [None]:
# Una lista con los nombres de las filas del dataset (en nuestro caso no tiene
# mucho sentido esta información, pero sí puede servir para otros casos)
data.index

<br>

In [None]:
# Con esta instrucción podemos ver si faltan datos en alguna fila
data.count(axis='columns')

<br>

In [None]:
# Con esta instrucción podemos ver si faltan datos en alguna columna

# En nuestro caso se puede ver que en las columnas 'Color', 'Caja', 'Motor' y
# 'Carrocería' hay datos ausentes (en todos los casos el total debe se 510)
data.count(axis='index')

<br>

In [None]:
# Podemos observar qué cantidad hay de cada elemento en cada columna, simplemente
# ajustando o indicando la columna a la que nos referimos
data.value_counts('Marca')

<br>

In [None]:
# Podemos obtener exactamente la misma información que antes, pero cambiando la
# forma que referenciamos la columna
data['Marca'].value_counts()

<br>

In [None]:
# Valores válidos sobre el total

# Esta instancia es un poco más compleja, ya que se debe utiliza una combinación
# de varios varios métodos

# Como la operación se debe realizar varias veces, empaquetamos todo el código
# en una función, y así lo reutilizamos al código

def ausentes_y_texto(columna):
  columna_analizada = data[columna]
  datos_ausentes = columna_analizada.isna().sum()
  datos_de_texto = columna_analizada.apply(lambda x: isinstance(x, str)).sum()
  print(f'Número de datos ausentes en "{columna}": {datos_ausentes}')
  print(f'Número de datos de texto en "{columna}": {datos_de_texto}')
  print('\n')

ausentes_y_texto('Precio')
ausentes_y_texto('Año')
ausentes_y_texto('Puertas')
ausentes_y_texto('Motor')
ausentes_y_texto('Kilómetros')


<br>
<br>

Un ==análisis extra== sería el siguiente: como estamos trabajando con información sobre autos puestos a la venta, sería bueno saber cuántos modelos hay en total disponibles en la plaza, y su marca comercial correspondiente. Para ello realizamos las siguientes operaciones:

**Nota:** el renderizador de Google no reconoce la instrucción de Markdown de resaltado (el signo igual doble `==`)

In [None]:
# Ajustamos la configuración de "Pandas" para mostrar todas las filas

# Igual que en un ejemplo anterior, esto hará que se muestren todas las filas
# obtenidas, por lo que en determinados casos podría hacer que se consuman
# muchos recursos del sistema. En caso que se desee que no ocurra esto, se
# comenta esta línea y se vuelva a ejecutar el notebook (ya que "Pandas" habrá)
# quedado precargado para mostrar todas las filas
pd.set_option('display.max_rows', None)

# Seleccionamos las columnas relevantes
columna_2 = data.iloc[:, 1]  # Segunda columna
columna_3 = data.iloc[:, 2]  # Tercera columna

# Creamos un DataFrame con las columnas seleccionadas
data_seleccion = pd.DataFrame({'Marca': columna_2, 'Modelo': columna_3})

# Eliminamos duplicados basados en la tercera columna
data_unicos = data_seleccion.drop_duplicates(subset='Modelo')

# Imprimimos los valores únicos de la tercera columna y sus valores asociados en la segunda columna
print(data_unicos)


<br>

## Análisis estadísticos del dataset

A partir de aquí se obtienen diferentes datos e informaciones de tipo estadístico del dataset con el que estamos trabajando (siempre para las columnas con datos numéricos)

In [None]:
# Menor de los datos

# Para la columna "Motor" no podemos obtener de momento el valor mínimo porque
# hay valores mal registrados (lo mismo va a ocurrir para todos los análisis que
# impliquien valores numéricos)

data[['Precio', 'Año', 'Puertas', 'Kilómetros']].min()

<br>

In [None]:
# Mayor de los datos
data[['Precio', 'Año', 'Puertas', 'Kilómetros']].max()

<br>

In [None]:
# Media de los datos
data[['Precio', 'Año', 'Puertas', 'Kilómetros']].mean()

<br>

In [None]:
# La varianza de los datos
data[['Precio', 'Año', 'Puertas', 'Kilómetros']].var()

<br>

In [None]:
# La desviación estándar de los datos
data[['Precio', 'Año', 'Puertas', 'Kilómetros']].std()

<br>

In [None]:
# Aquí volvemos a utilizar el método 'describe()' pero indicándolo de forma
# específica las columnas sobre las que queremos trabajar, y obtenemos la
# misma información que hasta ahora, pero con el añadido de los cuartiles
data[['Precio', 'Año', 'Puertas', 'Kilómetros']].describe()