class: center, middle, inverse, title-slide <div class="title-logo"></div> # Análisis de Datos ## Tema 0 - Introducción <br> <br> <br> <br> <br> .pull-left[ ### Roi Naveiro ] --- ## ¿Qué es la Ciencia de Datos? *"Data science is a concept to unify statistics, data analysis, machine learning and their related methods in order to **understand and analyze** actual phenomena with **data**. It employs techniques and theories drawn from many fields within the context of <font class="vocab">mathematics, statistics, information science, and computer science</font>."* .pull-right[ [-Wikipedia](https://en.wikipedia.org/wiki/Data_science) ] --- ## ¿Qué es la Ciencia de Datos? <img class=center src="img/DS_diag.png" height=400 /> --- ## ¿Qué son los Datos? *"A collection of discrete units of information that in their most basic forms convey quantity, quality, fact, statistics, or other basic units of meaning."* .pull-right[ [-Wikipedia](https://en.wikipedia.org/wiki/Data) ] -- <br> <font class="vocab">¡Definición bastante vaga!</font> --- ## Tipos de Datos * Cualquier unidad de información es un dato * Una distinción importante * Datos estructurados * Datos no estructurados --- ## Datos Estructurados Datos tabulares <img class=center src="img/excel.png" height=400 /> --- ## Datos No Estructurados Todo lo demás * Imágenes * Audio * Vídeo * Texto --- ## Tipos de Análisis de Datos * Descriptivo * Exploratorio * Inferencial * Predictivo * Causal --- ## Análisis Descriptivo **Objetivo**: resumir la información presente en un conjunto de datos * Primer tipo de análisis de datos a realizar * En general, las descripciones no se pueden generalizar sin la ayuda de modelos estadísticos --- ## Análisis Descriptivo La base de datos `mtcars` de R contiene información extraída de la *1974 Motor Trend US magazine* acerca de 10 aspectos de diseño de rendimiento de 32 vehículos. La variable `am` se refiere a la transmisión (0 = automática, 1 = manual) <img src="tema0_files/figure-html/unnamed-chunk-1-1.png" angle=90 style="display: block; margin: auto;" /> --- ## Análisis Exploratorio **Objetivo**: descubrir relaciones entre características de los datos * Motiva preguntas de investigación --- ## Análisis Exploratorio La variable `wt` se refiere al peso del vehículo y `mpg` a las millas por galón <img src="tema0_files/figure-html/unnamed-chunk-2-1.png" angle=90 style="display: block; margin: auto;" /> --- ## Análisis Inferencial **Objetivo**: usar una muestra pequeña de datos acerca de una población para extraer alguna información acerca de la misma. * Aquí entra en juego la **estadística** --- ## Análisis Inferencial <img src="img/pollution.png" width="100%" style="display: block; margin: auto;" /> --- ## Análisis Predictivo **Objetivo**: utilizar datos sobre un conjunto de objetos para predecir el valor de una variable en un objeto nunca antes visto * X predice Y no implica que X sea causa de Y --- ## Análisis Predictivo <img src="img/soy.svg" width="80%" style="display: block; margin: auto;" /> [Fuente](https://www.r-bloggers.com/2020/11/time-series-demand-forecasting/) --- ## Análisis Causal **Objetivo**: encontrar qué le sucede a una variable cuando se modifica el valor de otra * Las relaciones causales usualmente identifican efectos medios, no efectos individuales --- ## Análisis Causal `$$\\[1in]$$` <img src="img/covid.png" width="100%" style="display: block; margin: auto;" /> --- ## Este curso Adentrarnos en la ciencia de datos a través de R * Datos Tabulares (observacions x variables) * Análisis Descriptivo, Exploratorio, Inferencial `$$\\[0.3cm]$$` <img src="img/data-science-explore.png" width="100%" style="display: block; margin: auto;" /> Aprenderemos las herramientas fundamentales de R para las distintas fases de este esquema. --- ## Las fases de un proyecto de análisis de datos 1. **Importación**: cargar datos en R procedentes de: base de datos, fichero, aplicación web (API), etc. 2. **Organización**: almacenar datos de manera consistente con análisis. 3. **Transformación**: filtrado, creación de variables derivadas, etc. 4. **Visualización**: generación de preguntas, descubrimiento de tendencias. 5. **Análisis Exploratorio**: Visualización + tranformación aplicados de forma sistemática. 6. **Modelización**: confirmar hipótesis, responder preguntas. 7. **Comuniación**: comunicar resultados --- ## Las fases de un proyecto de análisis de datos - 1,2,3 `\(\rightarrow\)` Data Wrangling - 4,5 `\(\rightarrow\)` Data exploration - 5 `\(\rightarrow\)` Modelización - 6 `\(\rightarrow\)` Comunicación Todo esto usando el **lenguaje de programación R**. --- ## Programa - Tema 1 - Programación en R - Tema 2 - Análisis Exploratorio de los Datos - Tema 3 - Data Wrangling - Tema 4 - Modelización - Tema 5 - Comunicación de resultados --- ## R y RStudio ### ¿Qué es R/RStudio? - R es un lenguaje de programación especializacido en estadística - RStudio es una interfaz para programar en R <img src="img/r-rstudio.png" width="80%" style="display: block; margin: auto;" /> [Instalación de R y RStudio](https://rstudio-education.github.io/hopr/starting.html) --- ## Presentación * Análisis de Datos ECO-A * Profesor: Roi Naveiro * Email: roi.naveiro@cunef.edu * Web del curso: [https://roinaveiro.github.io/CU-analisis-datos/](https://roinaveiro.github.io/CU-analisis-datos/) --- ## Horario * *Horario clases*: - Lunes 15.30 - 16.30 - Jueves 16.30 - 18.00 - Viernes 16.30 - 18.00 * *Asistencia:* Obligatoria, al menos 80% --- ## Evaluación * **Convocatoria Ordinaria** - Evaluación contínua: Examen 1: 20% - Evaluación contínua: Examen 2: 20% - Examen Ordinario Final: 60% (toda la materia) * **Convocatoria Extraordinaria**: Examen Extraordinario Final (60%) + Evaluación contínua --- ## Recursos Interesantes * [Análisis de datos acerca de la evolución de las tendencias musicales](https://towardsdatascience.com/billboard-hot-100-analytics-using-data-to-understand-the-shift-in-popular-music-in-the-last-60-ac3919d39b49) * [A year as told by FitBit](https://livefreeordichotomize.com/2017/12/27/a-year-as-told-by-fitbit/) * [Charla TED](https://www.youtube.com/watch?v=hVimVzgtD6w) * [RMarkDown](https://www.rstudio.com/wp-content/uploads/2015/02/rmarkdown-cheatsheet.pdf) --- ## Bibliografía * [Hands-On Programming with R](https://rstudio-education.github.io/hopr/), Grolemund (2014) * [R for Data Science](https://r4ds.had.co.nz/), Wickham and Grolemund (2016) * [Data Visualization, A practical introduction](https://socviz.co/), Healy (2018) * [Data Science Specialization](https://github.com/DataScienceSpecialization/courses), Johns Hopkins University, Coursera